利用语音-脑电的多阶段性特性增强默语识别的多相相关网络研究
《IEEE Open Journal of Signal Processing》:Harnessing the Multi-Phasal Nature of Speech-EEG for Enhancing Imagined Speech Recognition
【字体:
大
中
小
】
时间:2025年11月21日
来源:IEEE Open Journal of Signal Processing 2.7
编辑推荐:
本研究针对脑机接口(BCI)中默语脑电(is-EEG)识别准确率低的问题,提出了一种加权多重相关网络(WMCNet)模型,通过整合听觉、发音、想象和产生四种语音相关EEG阶段的共性特征,显著提升了25个认知单元的连续语音EEG识别准确率(相对提升18.2%),为临床言语障碍患者的自然交流提供了新技术路径。
想象一下,当一个人因肌萎缩侧索硬化症(ALS)或闭锁综合征而失去言语能力时,如何与外界沟通?脑机接口(BCI)技术为这类患者带来了希望,它能够将大脑信号转化为可识别的指令。然而,当前基于脑电图(EEG)的默语识别系统仍面临巨大挑战:信号信噪比低、空间分辨率有限,且容易受到各种伪迹的干扰。更棘手的是,大多数研究仅聚焦于单一语音阶段(如默语),忽略了人类沟通本身涉及听觉感知、语音产生、发音动作和内心想象等多个阶段的协同工作。这种"单阶段中心"的研究范式,限制了识别准确率的进一步提升。
正是在这一背景下,来自印度理工学院马德拉斯分校和麻省理工学院的研究团队在《IEEE Open Journal of Signal Processing》上发表了一项创新研究。他们发现,不同语音处理阶段的大脑活动存在显著的相互关联性,这种"多阶段性"特征或是提升默语识别准确率的关键。基于这一发现,研究人员开发了一种新颖的加权多重相关网络(WMCNet),能够有效捕捉不同语音阶段EEG信号的共性特征,从而显著提升了对默语EEG的识别能力。
研究团队采用了多项关键技术方法:首先,他们使用了两个独立数据集——公开的KARA ONE数据库(DS1,包含孤立语音单元)和自行收集的连续语音EEG数据集(DS2,包含9名受试者的多阶段数据);其次,开发了WMCNet模型进行特征提取,该模型能同时处理多个EEG阶段并学习其共享表示;最后,采用高斯混合模型-隐马尔可夫模型(GMM-HMM)和深度神经网络(DNN)进行分类评估,并进行了严格的跨受试者和跨会话泛化测试。
通过端到端序列生成神经网络进行回归分析,研究人员量化了不同语音EEG阶段之间的相关性。结果显示,生产(说话)和想象阶段之间存在高度相关性(相关系数r接近1),而听觉与想象阶段之间也存在显著关联。这些发现证实了不同语音认知阶段共享着相似的神经表征,为多阶段学习提供了理论依据。
研究人员在传统相关网络(CorrNet)基础上进行了重要改进,提出了加权多重相关网络(WMCNet)。该模型能够同时处理多个EEG阶段,通过共享层最大化阶段间相关性,并通过加权损失函数平衡自重构、交叉重构和联合重构任务。WMCNet包含三个阶段特定的输入层、一个共享隐藏层和相应的输出层,通过优化多重相关性度量来学习更具判别力的特征表示。
实验结果表明,采用多阶段数据训练、仅使用默语EEG测试的WMCNet模型在DS1和DS2数据集上均取得了显著提升。对于DS2中的25个认知单元,最佳模型(BEST-ALL)相比仅使用单阶段数据的基线模型,准确率相对提升了18.2%。特别是在跨会话和跨受试者场景下,模型仍保持稳健性能,证明了该方法的良好泛化能力。
通过脑地形图分析,研究人员直观展示了不同语音阶段的大脑激活模式。想象阶段在额叶和中央区呈现分布式能量模式,生产阶段在运动相关皮层区域显示局部高能量区,而听觉阶段在颞叶区域表现出结构化的能量分布。这些模式的一致性为阶段间相关性提供了神经生理学证据。
研究人员进行了严格的对照实验,包括通道错配和试验错配分析,验证了所观察到的相关性确实源于语音内容的一致性而非随机因素。这些控制检查确保了实验结果的科学严谨性。
该研究的创新之处在于首次系统比较了四种语音相关EEG阶段(产生、听觉、发音和想象)的神经签名,并成功将多阶段信息整合到默语识别中。与传统方法相比,WMCNet模型不仅提高了识别准确率,还解决了实际应用中的关键问题:在测试阶段仅需默语EEG数据,避免了多模态数据同步的复杂性,更具临床应用可行性。
虽然该研究在技术层面取得了重要进展,但作者也指出了若干局限性,如受试者间变异性、信号对齐挑战以及实时部署的工程问题。未来工作可探索领域自适应技术、更先进的信号对齐方法,以及自监督学习策略,以进一步推动该技术向实际临床应用迈进。
这项研究为基于EEG的脑机接口发展提供了新思路,通过挖掘语音处理的多阶段特性,为改善言语障碍患者的沟通能力开辟了有前景的技术路径。其提出的WMCNet框架不仅适用于语音EEG分析,也有潜力扩展到其他多模态神经信号处理领域,推动脑机接口技术的进一步发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号