MeetMulti-X:大型语言模型在会议纪要生成中的多维度扩展规律与性能评估研究

《Expert Systems with Applications》:MeetMulti-X: A Benchmark Analysis of Scaling and Prompting Large Language Models on Automatic Minuting

【字体: 时间:2025年12月01日 来源:Expert Systems with Applications 7.5

编辑推荐:

  本文系统评估了19种开源和4种闭源大型语言模型(LLM)在会议自动纪要生成任务中的性能,通过定量(ROUGE、BERTScore)和定性(充分性、流畅性等)指标,深入分析了预训练数据规模、模型参数量、上下文长度和提示词长度等扩展因素对生成质量的影响规律,为优化实时会议摘要系统提供了重要设计准则。

  
MeetMulti-X框架概述
本研究提出了名为MeetMulti-X的综合性分析框架,专门用于探索大型语言模型在会议自动纪要生成任务中的性能表现。该框架将整个流程划分为四个关键阶段:预处理阶段负责清理转录文本中的不流畅内容;扩展阶段系统考察影响模型性能的各种缩放因素;摘要生成阶段利用不同规模的LLM生成会议纪要;评估阶段则通过定量和定性指标全面评判生成结果的质量。
会议数据集与预处理技术
实验采用了四个具有代表性的会议数据集:ELITR分钟记录语料库包含120场英文技术项目会议的真实对话;欧洲议会会议记录(EPM)涵盖2252份议会辩论转录文本;AMI语料库收录142场角色扮演的设计团队讨论;ICSI语料库则包含61场自然发生的学术会议录音。这些数据集在领域特征(学术、议会、项目会议)和会议类型(头脑风暴、正式讨论)方面呈现显著差异。预处理环节重点清除了转录文本中的填充词、重复表达等不流畅现象,平均使文本长度减少约15%。值得注意的是,ICSI数据集的平均标记数高达25万,而EPM数据集仅约2000个标记,这种长度差异对模型上下文窗口提出了不同要求。
多维度扩展因素解析
研究团队从四个维度深入分析了LLM的扩展规律:预训练数据规模方面,模型训练数据量从FLAN-T5的1875亿标记到Llama-3的超过15万亿标记不等;模型参数量级覆盖从7700万参数的FLAN-T5-small到1.8万亿参数的GPT-4o;上下文长度范围从512标记到128,000标记;提示工程设计则包含20至118标记四种不同长度的指令模板。特别发现,较长的提示词(如118标记)在闭源模型中表现更好,而简短提示(20标记)在开源模型中更具优势,这表明模型对指令的敏感度存在显著差异。
语言模型性能深度评估
在定量评估方面,研究采用ROUGE系列指标衡量文本表面相似度,BERTScore评估语义相似度,BARTScore和FrugalScore分别从生成质量和计算效率角度进行补充评估。结果显示,在不同数据集上,顶级模型的ROUGE-L分数波动较大(ELITR: 30.61, EPM: 23.80, AMI: 28.92, ICSI: 27.57),这表明数据集特性对模型性能产生重要影响。定性评估通过GPT-4o和人工标注从四个维度评分(1-10分):充分性(内容覆盖完整性)、流畅性(文本连贯度)、语法正确性和相关性(信息关联度)。研究发现,人工评估与自动指标间存在约0.46的Krippendorff's alpha一致性系数,其中语法和流畅性评价一致性较高,而充分性和相关性评价更具主观性。
扩展规律的验证与发现
预训练数据规模分析表明,数据量扩大与模型性能提升呈正相关,但数据质量同样关键。例如,使用高质量教科书数据训练的Phi-2(2.7B参数)在部分任务上表现优于某些大规模普通数据训练的模型。模型参数量分析揭示,参数量超过80亿后,性能提升呈现边际效应,如70B参数模型仅比7B模型平均提高1-2个BERTScore点。上下文长度实验发现,16,385标记的上下文窗口在多数数据集上达到最优平衡,超过此长度后模型注意机制可能分散,导致性能下降。提示工程研究证实,简洁明确的提示(37标记)在多数场景下优于复杂冗长的指令,特别是在处理长转录文本时,简短提示更能引导模型聚焦核心内容。
多数据集性能对比分析
在不同类型会议的处理上,模型表现呈现规律性差异。对于正式会议(如EPM议会数据),结构化演讲内容使各类模型都能取得较好效果(最佳BERTScore 81.58)。而头脑风暴会议(如ELITR)由于对话跳跃性强,需要模型更强的推理能力,此时大规模模型(如GPT-4o)展现明显优势。学术会议摘要(ICSI)任务中,专业术语和复杂逻辑关系对模型的知识储备提出更高要求,参数量超过70B的模型才能较好应对。项目会议(AMI)的摘要生成则相对均衡,中等规模模型(如7B-13B参数)即可取得令人满意的结果。
实际应用启示与局限性
本研究为实际应用提供重要指导:企业环境中的实时会议摘要可优先考虑7B-13B参数量的开源模型,在保证质量的同时控制计算成本;针对不同会议类型应灵活选择模型,正式会议可用较小模型,创新讨论需更大参数模型;提示工程应保持简洁,约20-40标记的指令模板在多数场景下效果最佳。研究同时承认存在三方面局限: crowd-sourcing标注可能影响评估专业性;仅采用零样本提示而未涉及微调技术;目前仅支持英文场景,未来需扩展至多语言和语码转换环境。
未来研究方向展望
后续研究将聚焦多个方向:探索参数高效微调技术(如LoRA、适配器)在会议摘要任务中的应用;开发领域自适应训练方法提升专业会议摘要质量;研究低延迟实时摘要系统满足实际应用需求;整合多模态信息(音频、幻灯片)增强上下文理解;建立更完善的评估体系,结合自动指标与领域专家人工评价。这些研究方向将推动会议自动摘要技术向更实用、更精准的方向发展,为企业协作和知识管理提供强大技术支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号