基于深度学习与超声舌像的端到端汉语语音重建:面向喉切除患者的语音功能康复新策略

《IEEE Transactions on Neural Systems and Rehabilitation Engineering》:End-to-End Mandarin Speech Reconstruction Based on Ultrasound Tongue Images Using Deep Learning

【字体: 时间:2025年11月19日 来源:IEEE Transactions on Neural Systems and Rehabilitation Engineering 5.2

编辑推荐:

  本刊推荐:针对喉切除患者语音功能丧失的临床难题,本研究创新性地提出基于生成对抗网络(GANs)的端到端普通话语音重建方法。通过同步采集超声舌像与语音数据,构建包含预训练特征提取器和上采样模块的深度学习模型,直接由舌部运动图像生成语音波形。客观评估显示重建语音的字符错误率(CER)为0.2605,声调错误率(TER)为0.1784,梅尔倒谱距离(MCD)为7.43 dB,主观感知自然度评分(MOS)达3.30。该方法首次实现从发音器官运动信息直接重建声调语言,为无喉者语音康复提供了新技术路径。

  
当喉癌患者接受全喉切除手术后,他们永远失去了发声能力,这导致严重的生理和心理困扰。目前临床常用的食管发音、气管食管穿刺发音和电子喉等康复手段各存局限:食管发音气流供应不稳定,气管食管发音需要二次手术且维护困难,电子喉产生的语音机械单调且缺乏音高变化,对汉语这类声调语言尤为不利。值得注意的是,大多数喉切除患者的上声道发音器官(包括舌部)保持完整,这为利用发音器官运动信息重建语音提供了可能。
舌作为最关键的发音器官,其灵活运动蕴含丰富的发音信息。超声成像技术以其实时、无创、无辐射等优势,成为捕捉舌运动的理想工具。然而,以往研究多采用"超声图像→语音特征→语音波形"的两步法,存在信息损失和误差累积问题。特别是对汉语等声调语言,基频(F0)的细微变化直接影响语音质量和可懂度,而传统方法难以有效重建声调特征。
针对这些挑战,李凤吉等人发表在《IEEE Transactions on Neural Systems and Rehabilitation Engineering》的研究,提出了基于深度学习的端到端普通话语音重建方法。该方法创新性地将超声舌图像直接映射为语音波形,避免了中间特征转换带来的信息损失。研究团队设计了包含1240句日常汉语的语料库,同步采集超声视频(100帧/秒)和音频信号(44.1kHz采样率),最终获得422,089帧有效舌像数据。
关键技术方法包括:1)构建基于生成对抗网络(GANs)的端到端模型,集成预训练特征提取器、编码模块和上采样模块;2)采用多尺度判别器(MSD)和多周期判别器(MPD)确保语音相似性和保真度;3)设计包含对抗损失、特征匹配损失和梅尔谱图损失的复合损失函数。模型在单块NVIDIA RTX 3090 GPU上训练,批量大小为16,采用AdamW优化器。
模型架构设计
研究团队设计了包含特征提取器、编码块和上采样块的生成器。特征提取器通过图像自编码器预训练获得舌像特征先验知识,编码块使用三维一维卷积层捕获时序特征,上采样块通过转置卷积层和多感受野融合(MRF)模块将特征上采样至音频波形分辨率。判别器采用MSD和MPD分别关注不同频率范围和周期性特征。
语音可懂度评估
通过自动语音识别(ASR)系统评估显示,完整方法(E2E-Pre-FT)的拼音字符错误率(CER)为0.2605,显著优于基线方法(E2E-Base的0.4563)。声调听写测试的错误率(TER)为0.1784,表明重建语音能有效保持汉语声调特征。混淆矩阵分析显示,与舌根运动相关的"卷舌音"、"腭音"和"软腭音"识别准确率超过80%,而舌尖相关的"唇音"、"唇齿音"识别较差,反映超声成像对舌尖信息捕获的局限性。
语音质量分析
客观指标显示,重建语音的梅尔倒谱距离(MCD)为7.43dB,对数基频均方根误差(Log F0RMSE)为0.35,基频相关系数(F0CORR)达0.77,浊音/清音准确率(F0V/U)为0.82。频谱图对比显示,重建语音的谐波结构、共振峰位置与原始语音高度一致,基频轮廓能够准确复现汉语声调变化模式。
主观感知评估
平均意见得分(MOS)测试中,30名母语为汉语的听评人对重建语音的自然度评分为3.30±0.13(5分钟),虽低于原始语音的4.98分,但已达到可接受水平。听测反馈表明,重建语音在声调、节奏和音色方面接近正常语音。
研究证实,端到端深度学习模型能有效从超声舌像中重建可懂的普通话语音。特征提取器预训练策略显著提升模型性能,完整方法(E2E-Pre-FT)在各项指标上均优于未预训练(E2E-Base)和未微调(E2E-Pre)的对比方法。该方法创新性地实现了从发音器官运动到语音波形的直接映射,克服了传统两步法的误差累积问题。特别是对声调语言的基频重建效果表明,舌部运动与声调产生存在密切关联,这为发音生理学研究提供了新视角。
然而,重建语音与自然语音仍存在差距,尤其在舌尖相关音素的识别方面有待改进。未来研究需扩大数据集规模,纳入多说话人(包括喉切除患者)数据,探索超声成像参数(分辨率、帧率等)对重建质量的影响,并优化模型架构以适应临床个性化需求。这项技术为无喉者语音康复提供了新思路,通过利用保留完好的发音器官运动信息,有望开发出更自然的语音假体装置。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号