综述：大型语言模型在神经病学治疗决策中的应用：范围综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月17日 来源：Journal of Medical Systems 5.7

编辑推荐：

　　本综述系统评估了大型语言模型（LLM）在神经病学治疗决策中的新兴作用。现有证据表明以ChatGPT为代表的LLM在辅助诊疗中展现出潜力，其决策与临床医生具有较高一致性。然而，当前研究数量有限且病种覆盖狭窄，尚未能证明其对临床结局的改善作用，亟需跨亚专业的远期验证以推动临床转化。

背景与意义

随着人工智能技术的飞速发展，大型语言模型（Large Language Models, LLMs）在医疗领域的应用探索日益深入。神经病学作为一门高度依赖临床推理和复杂数据解读的学科，自然成为LLMs的重要应用场景。现有大量文献已证实LLMs在神经系统疾病诊断方面的效能，然而临床工作者更关注的是其在治疗决策指导方面的潜力——这一领域的研究尚处于起步阶段，亟需系统性评估。

研究方法

本研究采用范围综述（Scoping Review）方法，系统检索了截至2024年9月18日的OVID/Medline、Web of Science和Cochrane Library三大数据库。纳入标准聚焦过去五年内发表的原创性研究，这些研究必须针对LLMs在神经病学治疗决策中的效能开展评估。研究方案已在开放科学框架（Open Science Framework）平台注册（注册号：https://doi.org/10.17605/OSF.IO/Y6N3E）。

主要发现

通过严格筛选，最终纳入4项符合标准的研究。值得注意的是，所有研究均采用ChatGPT作为研究工具，但使用的模型版本存在差异。各项研究均报告了积极成果：在不同评估指标下，LLMs提出的治疗建议与临床医生的决策显示出高度一致性。这表明人工智能模型在辅助治疗决策方面具备潜在应用价值。

局限性分析

然而研究的局限性同样显著。首先，极度有限的研究数量（仅4篇）导致证据基础薄弱。其次，这些研究覆盖的神经病学亚专业领域较为分散，包括脑血管病、神经变性疾病等不同方向，但缺乏系统性布局。这种主题异质性使得现有结论难以推广到整个神经病学实践领域。

临床适用性

尽管初步结果令人鼓舞，但现有证据尚不足以证明LLMs能够真正改善患者临床结局。当前展现出的潜力仅局限于特定使用场景，缺乏在真实临床环境中的大规模验证。特别是在复杂病例、罕见病和多学科协作治疗场景中的效能仍有待证实。

未来展望

该领域研究需要向纵深发展：一方面应扩大研究样本量，覆盖更多神经病学亚专业；另一方面需开展前瞻性临床验证，评估LLMs对长期治疗结局的实际影响。同时需要关注模型透明度、伦理问题和医疗责任划分等配套机制的建立。只有通过严谨的临床验证和标准化评估，才能真正推动LLMs从实验研究走向临床实践。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号