利用少样本学习与大语言模型解析科学文献中血压变异的性别差异

【字体: 时间:2025年09月28日 来源:Computers in Biology and Medicine 6.3

编辑推荐:

  本研究探讨了利用大语言模型(LLMs)从生物医学文献中自动提取血压(BP)数据及其与生物性别关联的可行性。通过对比少样本学习(DANN)与零样本LLMs(如LLaMA3和GPT-3.5)的性能,发现LLaMA3在提取平均血压和标准差方面表现最优(F1得分0.85),显著优于传统方法。研究不仅验证了LLMs在生物医学信息抽取中的高效性与准确性,还为大规模分析人口健康差异提供了可扩展框架。

  
Highlight
问题
当前的血压(BP)监测工具往往因未充分考虑人口统计学因素(如生物性别)而存在偏差,导致在理解和应对BP相关健康差异时可能出现不准确的情况。自然语言处理(NLP)方法有助于从科学文献中筛选出特定人口统计群体的BP数值。
已知信息
科学文献中已有大量关于不同人口群体(包括基于生物性别的差异)的血压趋势研究。近年来自然语言处理/大语言模型(NLP/LLMs)的进展使得……
相关研究
自2023年以来,受大语言模型(LLMs)兴起与成功的推动,众多研究开始利用它们处理生物医学和健康护理领域的自然语言处理任务。Kung等人[8]评估了ChatGPT(GPT-3.5)在美国医学执照考试(USMLE)上的表现,证明该模型在解释中展现出高度一致性和洞察力。Chen等人[9]检验了GPT-3.5在各种神经学考试评分量表上的性能,结果显示GPT-3.5在评估方面具备能力……
数据收集
我们按照图1所示流程创建了一个数据集。数据来源为PubMed Central(PMC),这是一个开放获取的生物医学和生命科学期刊文献库,由美国国立卫生研究院国家医学图书馆(NIH/NLM)维护,通过PMC文件传输协议(FTP)服务访问。数据以可扩展标记语言(XML)格式存储,每篇出版物均按方法进行组织……
结果
表1和表2展示了三种模型在系统层面和实体层面的性能。对于DANN模型,该模型在所有实体上表现较差,其中女性舒张压(DBP)平均值取得的F1分数最高(0.14)。LLaMA3在所有实体上的表现显著优于少样本学习方法,其召回率和精确度值明显更高,从而带来更好的F1分数。GPT-3.5取得了中等性能,优于DANN但普遍低于LLaMA3。我们还注意到……
讨论
本研究全面比较了三种信息抽取模型——一种少样本学习方法(DANN)、GPT-3.5和LLaMA3——在从科学文献中抽取基于生物性别的多个血压相关实体时的性能。少样本学习方法尽管在训练数据有限的场景中具有潜力,但未包含生成式大语言模型,其在所有实体上的表现均为三者中最差。该模型取得的最高召回率……
局限性
本研究存在若干重要局限性,在解读我们的发现时应予以考虑。首先,我们的调查仅聚焦于生物性别作为血压(BP)报告中的一个因素,未涉及其他临床显著变量。我们承认,血压作为一项生命体征而非人口统计变量,受到多种因素影响,包括年龄、种族/民族、生活方式、饮食、社会经济状况和地理位置。这种复杂的……
可重复性与代码可用性
为促进可重复性并鼓励进一步研究,我们已将全部源代码以及实验设置的详细文档公开在GitHub仓库中:https://github.com/yguo0102/blood_pressure_project。该仓库包含用于数据预处理、模型运行、后处理和评估的所有脚本,以及计算环境规格说明。我们还发布了标注示例以支持……
结论
在本研究中,我们探索了在零样本设置下应用大语言模型(LLMs)来提取按生物性别区分的血压(BP)平均值与标准差的可能性。同时,我们比较了少样本学习方法与两种大语言模型,结果证明大语言模型相较于更传统的低样本信息抽取系统具有优越性。此外,我们对所提取的信息进行了变异分析,结果表明男性可能具有比女性更高的血压……
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号