面向基于换能器的流式语音识别的最大似然训练

《IEEE Signal Processing Letters》:Towards Maximum Likelihood Training for Transducer-Based Streaming Speech Recognition

【字体: 时间:2025年11月20日 来源:IEEE Signal Processing Letters 3.9

编辑推荐:

  流式自动语音识别中,转换单元神经网络面临训练与推理不匹配问题,导致似然函数变形,影响识别精度。本文提出前向变量因果补偿(FoCC)及其估计器FoCCE,通过量化训练与推理间的似然差距,有效提升流式ASR的准确率,实验验证了其有效性。

  

摘要:

转换器神经网络已成为流式自动语音识别(ASR)的主流方法,在平衡准确性和延迟方面表现出卓越的性能。在传统框架中,流式转换器模型是根据非流式递归规则进行训练的,以最大化似然函数。然而,这种方法导致训练和推理之间的不匹配,从而产生似然值失真的问题,进而导致ASR准确率不佳。我们提出了一种数学量化方法来衡量实际似然值与失真似然值之间的差异,即前向变量因果补偿(FoCC)。我们还介绍了其估计器FoCCE,用于估计准确的似然值。通过对LibriSpeech数据集的实验,我们证明了FoCCE训练可以提高流式转换器的准确率。

引言

现代自动语音识别(ASR)的准确性取得了显著提升,这主要归功于深度学习的进步。虽然提高整体ASR的准确性仍然是首要任务,但最近的研究越来越强调在具有挑战性的场景中保持准确性的必要性,包括口语命名实体[1]、[2]、多语言语音[3]、[4]以及流式ASR[5]、[6]、[7]。值得注意的是,对设备端和实时ASR的需求不断增加,这突显了流式ASR的重要性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号