基于HVSM时频变换器网络的新生儿疼痛语音情感识别及其临床辅助诊断意义

【字体: 时间:2025年09月21日 来源:Computers in Biology and Medicine 6.3

编辑推荐:

  本文推荐了一项创新研究,针对新生儿疼痛识别难题,建立了首个多类别新生儿疼痛语音(NPS)数据库,并提出基于水平与垂直稀疏掩码时频变换器网络(HVSMTNet)的识别方法。该方法融合时域与频域Transformer,通过新型掩码机制增强语音特征重要性评估,显著提升了疼痛与非疼痛哭声的区分准确率,为临床疼痛管理提供了有效的辅助工具。

  

Highlight

本文的贡献如下:

  1. 1.

    建立了一个新颖的多类别新生儿疼痛语音数据库(NPS)。该数据库包含461个语音样本,涵盖179个平静状态样本、109个哭泣样本、69个轻度疼痛样本和104个重度疼痛样本。

  2. 2.

    提出了一种垂直与水平稀疏掩码模块。该模块优化了Transformer在识别和评估语音特征重要性方面的能力,有效抑制噪声和冗余信息。

  3. 3.

    提出了一种水平与垂直稀疏掩码时频变换器网络(HVSMTNet)。该网络能够有效判断新生儿样本中语音片段的重要性,更聚焦于相关信息,显著提高了新生儿疼痛语音情感识别的准确率。

  4. 4.

    在NPS和CASIA数据库上进行了消融实验与对比实验,验证了NPS数据库的有效性和HVSMTNet模型的优越性能。

Neonatal pain speech database(新生儿疼痛语音数据库)

由于新生儿无法通过语言表达感受,其疼痛状态常难以准确判断。然而,疼痛对新生儿的发育和健康具有重要影响。因此,构建新生儿疼痛语音数据库,通过分析其语音特征来评估疼痛状态,具有重要的临床意义和研究价值。

考虑到儿童医院临床场景的复杂性以及新生儿语音数据采集的高难度,目前全球范围内仍缺乏高质量、多类别的新生儿疼痛语音数据库。本研究通过与南京医科大学附属儿童医院及第二附属医院合作,由临床医务人员在儿科病房中录制了大量新生儿音频片段,尤其聚焦于哭泣时的语音数据。经预处理后,NPS数据库共筛选出461段时长6秒的语音,覆盖重度疼痛、轻度疼痛、哭泣与平静四种类别。

Network overview(网络框架概述)

Transformer是一种基于注意力机制的序列建模工具,在自然语言处理中表现卓越,近年来也逐渐应用于语音情感识别任务中。例如,Tarantino等人采用基于Transformer的全局窗口方法建模语句关系,Huang等人则利用Transformer融合多模态信息以进行情绪分析。

为克服卷积神经网络(CNN)在处理语音序列时的局限性,本文提出HVSMTNet模型。该模型首先提取语音特征,并将其分别输入时域Transformer和频域Transformer中进行深层特征提取;随后,在二者的QKV计算中引入垂直与水平稀疏掩码机制,以帮助网络评估语音片段的重要性,强化语音相关信息的关注,抑制噪声或冗余信息;最后,利用扩张因果卷积网络进一步提取特征,通过不同的扩张率控制感受野大小,以捕获多尺度特征、降低计算复杂度并增强模型的平移不变性。

Experimental results and analysis(实验结果与分析)

以下实验将在新生儿疼痛语音数据库(NPS)和CASIA数据库上进行,以验证NPS数据库的可靠性及HVSMTNet模型的有效性。实验使用配备NVIDIA GTX1080Ti GPU的台式机,操作系统为Ubuntu 20.04,Python版本为3.6。训练过程中,批大小设为2,采用Adam优化算法,初始学习率为0.0001,共训练100轮。

(注:实验细节及具体数据因原文未完整提供,此处仅作框架性描述)

Conclusions(结论)

新生儿疼痛语音情感识别是一项新颖且极具挑战性的研究方向。为解决当前缺乏可靠新生儿疼痛语音数据库的问题,本文建立了一个新的NPS数据库。此外,针对语音信号时变特性明显、易受噪声干扰等问题,本文提出了一种基于水平与垂直稀疏掩码时频变换器网络(HVSMTNet)的新生儿疼痛语音情感识别方法。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号