利用大型语言模型识别和治疗强迫症

《Computers in Human Behavior: Artificial Humans》:Harnessing large language models for identification and treatment of obsessive-compulsive disorder

【字体: 时间:2025年10月07日 来源:Computers in Human Behavior: Artificial Humans

编辑推荐:

  本研究比较了ChatGPT-3.5、4、Claude 3.5 Sonnet和Gemini 1.5 Pro与315名心理健康专家在识别强迫症(OCD)、推荐治疗及评估污名化方面的表现,使用六个人物案例。结果显示AI模型在OCD识别准确率(100% vs 87%)和治疗推荐(60-100% vs 61.9%)上显著优于人类专家,且AI对危险和污名化评估更低。该研究突显AI在OCD诊断中的潜力,但需注意其局限性。

  强迫性障碍(OCD)是一种影响个体功能和福祉的慢性且具有破坏性的精神健康问题。OCD的主要特征包括反复出现的侵入性想法(强迫观念)和重复性的行为或心理活动(强迫行为),这些症状会导致显著的痛苦和日常生活的干扰。早期识别和干预对改善OCD的预后至关重要。本研究对比了四种人工智能模型(ChatGPT-3.5、ChatGPT-4、Claude 3.5 Sonnet 和 Gemini 1.5 Pro)与人类精神健康专业人员在识别OCD、推荐基于证据的治疗方法以及评估偏见和污名方面的表现。研究使用了六个案例描述(vignettes),对480个AI评估和315个专业人员的评估进行了分析。结果显示,AI模型在OCD识别方面表现出更高的准确性(100% vs. 87%),在推荐基于证据的干预措施方面也表现出更强的能力(60-100% vs. 61.9%)。此外,AI模型在评估污名和危险性方面也表现出较低的估计。这些发现表明,AI在基于案例的识别任务中展现出更高的准确性,为AI在精神健康护理中的应用提供了新的可能性,特别是在增强OCD诊断和治疗方面。

OCD的诊断和治疗面临诸多挑战,其中一个重要因素是误诊或未能识别OCD症状。许多患者由于羞耻感或害怕被评判而难以披露侵入性或禁忌性的强迫观念,这使得症状的识别变得更加复杂。此外,精神健康专业人员常常将强迫观念与过度担忧或精神斗争混淆,导致将其误诊为广泛性焦虑障碍(GAD)或抑郁症。研究发现,初级保健医生在识别OCD案例时存在显著误差,特别是对于涉及性(70.8%-84.6%)和攻击性(80.0%)主题的案例。这种误诊率在精神健康专业人员中也有所体现,特别是在非典型或禁忌性症状的呈现时,错误率高达75%。这表明,OCD的识别在精神健康领域存在系统性盲点,这些问题根植于污名、症状的异质性和对疾病全谱的认识不足。

鉴于这些持续的诊断挑战,人工智能(AI)——特别是大型语言模型(LLMs)——可能为精神健康护理提供有价值的补充工具。LLMs是自然语言处理系统的一个子集,通过大量文本数据进行训练,能够生成复杂的预测和回应。其设计允许它们处理复杂的语言输入,从而可能比人类判断更一致地识别心理病理特征。AI在医疗领域的应用已经显示出潜力,例如通过简化行政流程、提高患者可及性和减少污名。在OCD的特定案例中,AI工具可能提供一个更加包容和非评判性的环境,帮助患者进行初步识别和分诊。此外,LLMs可能通过应用一致的诊断启发式方法,减少一些导致强迫观念被误判为担忧或精神挣扎的人类偏见。然而,AI不能也不应取代经验丰富的临床医生;相反,它应该作为辅助工具,支持识别、转介和心理教育。

尽管AI在医疗领域的应用迅速增长,但关于其在OCD诊断中的作用的研究仍较为有限,且结果不一。近期研究表明,LLMs如ChatGPT-4和Gemini Pro在某些精神疾病诊断任务中可能优于临床医生,包括识别OCD症状的表现,同时提供一致的推理模式。然而,内容审核政策和训练偏见也限制了AI处理敏感或禁忌性强迫观念的能力,有些模型甚至拒绝处理涉及性或攻击性内容的案例。此外,研究方法上的不一致和对隐私、安全及文化偏见的伦理问题也突显了在AI应用中需要谨慎对待。

系统综述强调了LLMs在精神健康领域的潜力,特别是在提供一致的诊断表现和治疗支持方面,同时也强调了对伦理保障的必要性。已有证据表明,尽管LLMs如ChatGPT-4在治疗抑郁症和创伤后应激障碍(PTSD)等疾病方面可能优于人类样本,但在识别早期精神分裂症等复杂情况或预测康复方面可能较为保守。最近的研究进一步表明,LLMs在使用标准化案例描述识别OCD时表现优于临床医生,这突显了其潜力和局限性。

研究还发现,除了精神科医生之外,其他精神健康专业人员(如心理学家、社会工作者和初级保健医生)在识别OCD方面也存在显著困难,尤其是在症状不典型或涉及禁忌性内容时。这些发现与更广泛的证据相呼应,表明即使受过训练的专业人员,也可能在OCD表现超出传统症状群时忽略其存在,从而导致治疗延迟。因此,虽然LLMs在解决这些系统性障碍方面具有潜力,但它们的效果仍需在与人类临床医生的比较研究中进行严格评估。

本研究评估了四种广泛使用的大型语言模型(LLMs)在识别OCD方面的准确性,以及它们在推荐治疗方法和评估污名和危险性方面的表现。研究发现,所有AI模型在OCD识别率上均显著高于精神健康专业人员。此外,AI模型在推荐基于证据的治疗方案方面也表现出更高的信心水平,而人类专业人员的推荐信心率为61.9%。值得注意的是,Gemini在推荐基于证据的治疗方案时表现出与其他模型相似的水平,这可能与其训练数据或算法设计有关。AI模型在评估污名和危险性方面也显示出更低的估计,这表明它们可能在减少对OCD患者的偏见方面具有优势。

研究还指出,尽管AI模型在基于案例的识别任务中表现出色,但它们在实际临床环境中可能面临不同的挑战。例如,OCD患者常常伴随其他精神疾病,而本研究使用的案例描述主要集中在常见的OCD亚型,如污染、对称性、责任性及禁忌性强迫观念,而未涵盖共病情况或更不寻常的症状表现。因此,研究结果需要谨慎解读,不能直接推广到这些复杂案例。此外,AI模型在处理涉及性或攻击性内容的案例时可能存在偏见或不一致,这需要进一步的研究来验证和优化。

本研究的局限性包括:首先,仅评估了特定版本的LLMs,未考虑后续更新和改进;其次,样本仅包括精神健康专业人员,未涵盖全球范围内的所有心理治疗方法;第三,案例描述虽然方法上具有价值,但可能过于简化真实临床情境;第四,数据可能受到泄漏的影响,因为LLMs可能在预训练阶段接触过案例描述或类似内容;第五,衡量“信心”和“愿意参与”的指标并不反映真实临床态度,而是文本代理,因此需要谨慎解读。最后,本研究并未直接评估LLMs的临床准确性,未来的研究应包括验证研究,以确定LLMs预测在实际环境中的适用性和可靠性。

综上所述,本研究的结果强调了AI工具在OCD诊断和治疗中的潜力,尤其是在提高识别准确性和一致性方面。然而,AI不应被视为替代人类专业人员的工具,而应作为辅助手段,支持精神健康护理中的诊断、转介和教育。未来的研究应探索AI在临床工作流程中的整合,同时解决伦理、隐私和文化考虑,以最大化AI在精神健康护理中的益处。此外,需要进一步研究AI在处理实际患者数据、共病情况和不典型症状表现时的性能,以确保其在临床实践中的有效性和可靠性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号