TSFNet：基于时序-频谱融合网络的医疗场景语音情感识别创新方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年10月04日 来源：Artificial Intelligence in Medicine 6.2

编辑推荐：

　　本文推荐一种新型语音情感识别（SER）网络TSFNet，该网络通过融合时序与频谱特征，结合大规模预训练模型（LPM），显著提升医疗场景下情感识别的准确性与鲁棒性。其在六个公开数据集上表现优异，最高准确率达100%（Tess），为抑郁症筛查与医患交互提供了有效的技术支撑。

创新性自适应融合设计：

TSFNet采用一种自适应特征融合机制，简洁高效地整合时序与频谱特征，强化二者在情感识别中的互补作用。

灵活模块化架构：

TSFNet具备即插即用（plug-and-play）设计，支持集成先进的大规模预训练模型（LPM）和频谱提取器，可随技术发展持续优化语音情感识别（SER）性能。

提升情感细微差异识别能力：

TSFNet借助大规模预训练模型的优势，更精准捕捉复杂情感表达中的细微差异，应对医疗场景中情感识别的挑战。

相关研究：

近年来，基于时序的方法通过捕捉语音信号的动态变化与形态特征，显著提高了语音情感识别（SER）的准确性。例如，TIM-Net通过多时间尺度分析情感模式提升识别性能，SpeechFormer++则将时序特征有效整合进Transformer架构。此外，基于时序卷积网络（TCN）的模型也展现出强大潜力。

方法：

图1展示了TSFNet的整体架构，包括时序特征提取器（第3.1节）、频谱特征提取器（第3.2节）、特征融合模块（第3.3节）和分类模块（第3.4节）。各部分详细说明如下：

数据集：

TSFNet在六个广泛使用的情绪数据集上进行评估，包括Savee、Crema-D、IEMOCAP、Tess、Emovo和Meld。实验同时考虑原始六类或七类情绪标签，以及四类主要情绪子集：愤怒、快乐、中性、悲伤。每个数据集按8:2划分训练集与测试集，确保评估的公平性与鲁棒性。

分类结果：

本节从以下两个角度展示实验结果：

基于时序的结果：

本研究使用四种LPM作为时序特征提取主干，包括Wav2vec、Wav2vec 2.0、HuBERT和WavLM，以捕捉情感的复杂细节。表2与图3展示了TSFNet在六类情绪数据集上（四类、六类、七类情绪标签）的SER结果。

局限性及未来工作：

尽管TSFNet在语音情感识别中达到先进水平，仍存在若干局限需进一步研究。首先，TSFNet依赖大规模预训练模型（如WavLM、MFCC）提取鲁棒的时序特征，其性能受这些外部模型的可用性与质量影响较大。若未来数据集或应用场景与预训练语料差异显著，模型可能面临泛化能力下降的挑战。

结论：

本研究提出一种新颖的时序-频谱融合网络（TSFNet），用于语音情感识别，旨在整合时序与频谱信息以捕捉复杂情感细节。TSFNet利用Wav2vec、Wav2vec 2.0、HuBERT、WavLM等大规模预训练模型（LPM）及频谱提取器作为即插即用组件，有效提取时序特征，简洁高效地实现鲁棒的情感识别。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号