
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向基于换能器的流式语音识别的最大似然训练
《IEEE Signal Processing Letters》:Towards Maximum Likelihood Training for Transducer-Based Streaming Speech Recognition
【字体: 大 中 小 】 时间:2025年11月20日 来源:IEEE Signal Processing Letters 3.9
编辑推荐:
流式自动语音识别中,转换单元神经网络面临训练与推理不匹配问题,导致似然函数变形,影响识别精度。本文提出前向变量因果补偿(FoCC)及其估计器FoCCE,通过量化训练与推理间的似然差距,有效提升流式ASR的准确率,实验验证了其有效性。
现代自动语音识别(ASR)的准确性取得了显著提升,这主要归功于深度学习的进步。虽然提高整体ASR的准确性仍然是首要任务,但最近的研究越来越强调在具有挑战性的场景中保持准确性的必要性,包括口语命名实体[1]、[2]、多语言语音[3]、[4]以及流式ASR[5]、[6]、[7]。值得注意的是,对设备端和实时ASR的需求不断增加,这突显了流式ASR的重要性。
生物通微信公众号
知名企业招聘