TSFNet:基于时序-频谱融合网络的医疗场景语音情感识别创新方法
【字体:
大
中
小
】
时间:2025年10月04日
来源:Artificial Intelligence in Medicine 6.2
编辑推荐:
本文推荐一种新型语音情感识别(SER)网络TSFNet,该网络通过融合时序与频谱特征,结合大规模预训练模型(LPM),显著提升医疗场景下情感识别的准确性与鲁棒性。其在六个公开数据集上表现优异,最高准确率达100%(Tess),为抑郁症筛查与医患交互提供了有效的技术支撑。
TSFNet采用一种自适应特征融合机制,简洁高效地整合时序与频谱特征,强化二者在情感识别中的互补作用。
TSFNet具备即插即用(plug-and-play)设计,支持集成先进的大规模预训练模型(LPM)和频谱提取器,可随技术发展持续优化语音情感识别(SER)性能。
TSFNet借助大规模预训练模型的优势,更精准捕捉复杂情感表达中的细微差异,应对医疗场景中情感识别的挑战。
近年来,基于时序的方法通过捕捉语音信号的动态变化与形态特征,显著提高了语音情感识别(SER)的准确性。例如,TIM-Net通过多时间尺度分析情感模式提升识别性能,SpeechFormer++则将时序特征有效整合进Transformer架构。此外,基于时序卷积网络(TCN)的模型也展现出强大潜力。
图1展示了TSFNet的整体架构,包括时序特征提取器(第3.1节)、频谱特征提取器(第3.2节)、特征融合模块(第3.3节)和分类模块(第3.4节)。各部分详细说明如下:
TSFNet在六个广泛使用的情绪数据集上进行评估,包括Savee、Crema-D、IEMOCAP、Tess、Emovo和Meld。实验同时考虑原始六类或七类情绪标签,以及四类主要情绪子集:愤怒、快乐、中性、悲伤。每个数据集按8:2划分训练集与测试集,确保评估的公平性与鲁棒性。
本研究使用四种LPM作为时序特征提取主干,包括Wav2vec、Wav2vec 2.0、HuBERT和WavLM,以捕捉情感的复杂细节。表2与图3展示了TSFNet在六类情绪数据集上(四类、六类、七类情绪标签)的SER结果。
尽管TSFNet在语音情感识别中达到先进水平,仍存在若干局限需进一步研究。首先,TSFNet依赖大规模预训练模型(如WavLM、MFCC)提取鲁棒的时序特征,其性能受这些外部模型的可用性与质量影响较大。若未来数据集或应用场景与预训练语料差异显著,模型可能面临泛化能力下降的挑战。
本研究提出一种新颖的时序-频谱融合网络(TSFNet),用于语音情感识别,旨在整合时序与频谱信息以捕捉复杂情感细节。TSFNet利用Wav2vec、Wav2vec 2.0、HuBERT、WavLM等大规模预训练模型(LPM)及频谱提取器作为即插即用组件,有效提取时序特征,简洁高效地实现鲁棒的情感识别。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号