基于大型语言模型和机器学习的文本与音频特征的抑郁筛查

《Journal of Aerosol Science》:Depression screening with textual and audio features based on large language models and machine learning

【字体: 时间:2025年11月18日 来源:Journal of Aerosol Science 2.9

编辑推荐:

  抑郁症筛查中多模态特征融合与机器学习模型性能研究。采用文本与音频特征融合方法,基于1275名青少年数据集,比较了SVR、RFR、GBR、MLP和XGBoost五种模型的预测性能。结果表明多模态融合显著优于单模态方法(MAE降低0.08,RMSE降低0.12),其中随机森林回归模型(RFR)表现最佳(准确率98%,精确率98%)。关键特征包括文本的抑郁严重程度、情绪极性概率,以及音频的情绪状态(愤怒、惊讶等)。

  抑郁是一种复杂的心理障碍,其筛查需要综合考虑多种信息来源。传统的筛查方法主要依赖于问卷和临床访谈,这些方法虽然在一定程度上有效,但往往存在效率低、准确性不足的问题。随着人工智能和大数据技术的发展,利用文本和音频等多模态数据进行抑郁筛查成为研究热点。文本数据能够提供个体的思想和经历的上下文信息,而音频数据则可以捕捉到非语言特征,如语调、语速、节奏、停顿和音高变化,这些特征反映了个体的情绪波动、紧张程度和心理压力。因此,结合文本和音频数据的多模态方法被认为能够更全面、更客观地评估抑郁状态。

在当前的研究中,研究人员利用了一种大规模的多模态心理数据集,涵盖了1275名参与者(其中707名为男性,568名为女性,年龄在12至16岁之间)。该数据集包括PHQ-9评分、18,834条文本访谈记录以及由音频录音生成的mel-spectrograms。文本特征的提取主要依赖于中国自杀词典(CSD)中的自杀风险评分、大型语言模型(LLMs)生成的情绪极性概率和抑郁严重程度概率。音频特征的提取则通过一个微调后的U-Net模型,结合mel频谱图、mel频率倒谱系数(MFCCs)和色度特征,来估计八种情绪的频率(比率)。最终,将这些特征进行整合,并使用五种机器学习模型(支持向量回归、随机森林回归、梯度提升回归、多层感知机和XGBoost)进行评估,以确定最佳模型。

研究结果显示,多模态融合方法在抑郁筛查中表现优于单模态方法(仅文本或仅音频)。在所有模型中,随机森林回归(RFR)模型表现最佳,其准确率和精确率分别达到了0.98。多模态融合方法不仅提高了模型的预测能力,还增强了对个体心理状态的全面理解。研究发现,文本特征中与抑郁预测最为相关的因素包括抑郁严重程度、负面和正面情绪极性以及自杀风险;而音频特征中最重要的因素则包括快乐、愤怒、中性和惊讶等情绪特征。这些关键特征能够更准确地反映个体的心理状态,从而提高筛查的可靠性。

此外,研究还应用了SHapley Additive exPlanations(SHAP)分析,以探讨各个特征在抑郁预测中的重要性。这种分析方法能够帮助研究人员理解模型的决策过程,提高结果的可解释性。通过SHAP分析,可以明确哪些特征对抑郁筛查具有更大的影响,从而为未来的干预措施提供依据。例如,如果某个特征显示出较高的重要性,研究人员可以进一步研究其与抑郁之间的关系,并探索如何通过干预来改善该特征,从而减轻抑郁症状。

在当前的抑郁筛查研究中,多模态方法的引入具有重要意义。传统的单模态方法,如基于文本的分析或基于音频的分析,往往无法全面捕捉抑郁的复杂性。例如,一个人可能在文本中表达积极的情感,但在音频中表现出单调的语调,这种非语言特征可能暗示潜在的抑郁倾向。因此,结合文本和音频数据可以更全面地评估个体的心理状态,避免因单一数据来源而产生的偏差。

多模态方法的优势不仅体现在提高筛查的准确性上,还在于其能够捕捉到更细微的心理变化。抑郁作为一种多维的心理障碍,涉及生理、认知和情绪等多个层面的变化。通过整合不同模态的数据,研究人员可以更全面地了解这些变化,从而更有效地进行筛查和干预。例如,文本数据可以反映个体的思维模式和情绪表达,而音频数据则可以捕捉到情绪波动和非语言特征的变化。这种多维度的信息整合有助于构建更精确的抑郁评估模型。

在实际应用中,多模态方法还能够适应不同的环境和情境。例如,在社交媒体等生态效度较高的环境中,文本和视觉数据的结合能够提供更丰富的信息,帮助研究人员更准确地识别抑郁倾向。相比之下,单模态方法可能在某些情境下表现不佳,因为它们无法捕捉到个体在不同情境下的多方面表现。因此,多模态方法不仅提高了筛查的准确性,还增强了其在不同应用场景中的适应性和泛化能力。

然而,多模态方法的实施也面临一些挑战。首先,数据的整合和处理需要较高的计算资源和技术支持。文本和音频数据的特征提取过程复杂,需要使用先进的算法和模型来确保数据的准确性和完整性。其次,多模态数据的异质性可能会影响模型的性能。不同模态的数据具有不同的结构和特征,如何有效地融合这些数据,使其在模型中发挥协同作用,是一个需要解决的问题。此外,模型的可解释性也是一个重要考量因素。虽然多模态方法能够提高预测的准确性,但其内部机制可能较为复杂,难以直观理解。因此,研究中引入了SHAP分析等方法,以提高模型的透明度和可解释性,帮助研究人员更好地理解抑郁筛查的结果。

未来的研究可以进一步探索其他模态数据,如面部表情和生理指标,以提高抑郁筛查的准确性和全面性。面部表情能够提供丰富的非语言信息,如微表情、眼神交流和面部肌肉的变化,这些信息可能与个体的情绪状态密切相关。生理指标,如心率、皮肤电反应和脑电图(EEG)信号,也可以反映个体的心理状态。通过整合这些模态数据,研究人员可以构建更加全面的抑郁评估体系,提高筛查的效率和准确性。

此外,随着大型语言模型(LLMs)的发展,文本特征的提取和分析变得更加高效和精确。LLMs能够处理大量的文本数据,并从中提取出具有心理意义的特征,如情绪极性概率和抑郁严重程度概率。这些特征不仅能够反映个体的情绪状态,还能够提供更深入的心理分析。通过将这些特征与音频特征相结合,研究人员可以构建更加丰富的抑郁评估模型,提高筛查的可靠性。

在实际应用中,多模态方法的推广还需要考虑数据的隐私和伦理问题。由于抑郁筛查涉及个体的心理状态,因此需要确保数据的匿名化和安全性。同时,研究人员还需要遵循伦理规范,确保参与者在知情同意的情况下参与研究。此外,模型的可解释性和透明度也是重要的考量因素,特别是在医疗和心理健康领域,模型的决策过程需要能够被理解和验证,以确保其应用的安全性和有效性。

综上所述,多模态方法在抑郁筛查中展现出巨大的潜力。通过整合文本和音频数据,研究人员能够更全面地评估个体的心理状态,提高筛查的准确性和可靠性。然而,多模态方法的实施仍需克服数据整合、模型可解释性和伦理规范等方面的挑战。未来的研究可以进一步探索其他模态数据,如面部表情和生理指标,以构建更加全面的抑郁评估体系。同时,提高模型的透明度和可解释性,也是推动多模态方法在实际应用中发挥作用的重要方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号