TSFNet:基于时序-频谱融合网络的医疗场景语音情感识别创新方法

【字体: 时间:2025年10月04日 来源:Artificial Intelligence in Medicine 6.2

编辑推荐:

  本文推荐一种新型语音情感识别(SER)网络TSFNet,该网络通过融合时序与频谱特征,结合大规模预训练模型(LPM),显著提升医疗场景下情感识别的准确性与鲁棒性。其在六个公开数据集上表现优异,最高准确率达100%(Tess),为抑郁症筛查与医患交互提供了有效的技术支撑。

  
创新性自适应融合设计
TSFNet采用一种自适应特征融合机制,简洁高效地整合时序与频谱特征,强化二者在情感识别中的互补作用。
灵活模块化架构
TSFNet具备即插即用(plug-and-play)设计,支持集成先进的大规模预训练模型(LPM)和频谱提取器,可随技术发展持续优化语音情感识别(SER)性能。
提升情感细微差异识别能力
TSFNet借助大规模预训练模型的优势,更精准捕捉复杂情感表达中的细微差异,应对医疗场景中情感识别的挑战。
相关研究
近年来,基于时序的方法通过捕捉语音信号的动态变化与形态特征,显著提高了语音情感识别(SER)的准确性。例如,TIM-Net通过多时间尺度分析情感模式提升识别性能,SpeechFormer++则将时序特征有效整合进Transformer架构。此外,基于时序卷积网络(TCN)的模型也展现出强大潜力。
方法
图1展示了TSFNet的整体架构,包括时序特征提取器(第3.1节)、频谱特征提取器(第3.2节)、特征融合模块(第3.3节)和分类模块(第3.4节)。各部分详细说明如下:
数据集
TSFNet在六个广泛使用的情绪数据集上进行评估,包括Savee、Crema-D、IEMOCAP、Tess、Emovo和Meld。实验同时考虑原始六类或七类情绪标签,以及四类主要情绪子集:愤怒、快乐、中性、悲伤。每个数据集按8:2划分训练集与测试集,确保评估的公平性与鲁棒性。
分类结果
本节从以下两个角度展示实验结果:
基于时序的结果
本研究使用四种LPM作为时序特征提取主干,包括Wav2vec、Wav2vec 2.0、HuBERT和WavLM,以捕捉情感的复杂细节。表2与图3展示了TSFNet在六类情绪数据集上(四类、六类、七类情绪标签)的SER结果。
局限性及未来工作
尽管TSFNet在语音情感识别中达到先进水平,仍存在若干局限需进一步研究。首先,TSFNet依赖大规模预训练模型(如WavLM、MFCC)提取鲁棒的时序特征,其性能受这些外部模型的可用性与质量影响较大。若未来数据集或应用场景与预训练语料差异显著,模型可能面临泛化能力下降的挑战。
结论
本研究提出一种新颖的时序-频谱融合网络(TSFNet),用于语音情感识别,旨在整合时序与频谱信息以捕捉复杂情感细节。TSFNet利用Wav2vec、Wav2vec 2.0、HuBERT、WavLM等大规模预训练模型(LPM)及频谱提取器作为即插即用组件,有效提取时序特征,简洁高效地实现鲁棒的情感识别。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号