基于深度思考大语言模型与检索增强的生物医学知识挖掘框架IP-RAR:推动精准医疗与科研决策创新

【字体: 时间:2025年09月18日 来源:GigaScience 3.9

编辑推荐:

  本研究针对生物医学领域知识图谱构建复杂、大语言模型检索与推理能力不足的问题,开发了集成检索增强推理框架IP-RAR。通过构建分层知识图谱BioStrataKG和跨文档问答数据集BioCDQA,实现了文档检索F1值提升20%,答案生成准确率提高25%。该研究为临床决策支持系统和科研假设生成提供了高效可靠的技术方案。

  

在生物医学研究飞速发展的今天,海量的科研文献中蕴藏着推动医疗进步的关键知识,但如何从数以百万计的论文中精准提取有效信息,并实现跨文献的深度推理,一直是困扰研究人员的重要挑战。传统知识图谱(KG)构建面临专业术语复杂、数据异构和知识快速演变的困境,而大语言模型(LLM)在检索和推理方面存在明显局限,难以发现跨文档关联和推理路径。

针对这些痛点,由冯一春、王佳伟、何瑞坤、周璐和李亦学共同完成的研究,在《GigaScience》上发表了一项突破性工作。研究人员开发了一种名为IP-RAR(集成渐进式检索增强推理)的创新框架,通过结合深度思考大语言模型和知识图谱技术,显著提升了生物医学知识挖掘的效率和准确性。

研究采用了几个关键技术方法:利用GPT-4o mini从PubMed获取的15,585篇肺癌、乳腺癌和结直肠癌相关文献中构建生物医学分层知识图谱(BioStrataKG);创建包含1,183个高质量问答对的生物医学跨文档问答数据集(BioCDQA);开发集成推理检索模块实现多级多粒度检索;设计渐进推理生成模块通过自反思机制优化答案生成。

研究结果方面,BioStrataKG构建结果显示,该知识图谱包含94,962个节点和290,403个关系,平均度为6.11,涵盖了基因、蛋白质、药物和疾病等实体类型。BioCDQA数据集分析表明,问题类型涵盖事实性问答、知识提取和知识发现等多种类别,为评估潜在知识检索和多跳推理提供了标准基准。

IP-RAR框架性能评估结果显示,在BioCDQA数据集上,IP-RAR的文档检索F1分数达到34.96%,GPT-4评估得分高达76.41%,显著优于所有基线方法。在BioASQ数据集上的测试进一步证明,IP-RAR在文档检索和精确答案生成方面均表现最优,特别是在事实性问题上达到95.34%的严格准确率。

多级多粒度检索策略分析表明,结合摘要级和全文级检索的多级策略使问题检索和虚拟答案检索的召回率分别提高8.76%和11.99%。关键词检索结合同义词扩展将召回率提升至66.10%,验证了多粒度策略的有效性。

应用案例演示显示,IP-RAR框架在制定科学问题和规划研究方面,能够基于文献分析提出mir-375在结直肠癌不同亚型中的作用机制假设,并设计相应的体外和体内实验方案。在临床决策支持的药物相互作用研究中,系统能识别顺铂与西妥昔单抗的拮抗作用,并推荐卡铂作为替代治疗方案。

研究结论指出,IP-RAR框架通过整合知识图谱与大语言模型,系统性地揭示了生物医学实体(基因、蛋白质、疾病、药物)之间的多层关系以及研究论文在方法、数据集、研究方向和引用关系方面的相互作用。该框架不仅帮助医生快速从海量文献中识别和整合关键信息,制定更精确的个性化治疗方案,还使研究人员能够系统分析前沿进展和潜在研究空白,加速研究策略制定和决策过程。

讨论部分强调,尽管IP-RAR取得了显著成果,但在处理高度复杂的多模态数据、动态演变的科学知识以及人机交互方面仍面临挑战。未来工作将探索多模态信息整合和基于智能体的交互,进一步提升框架的鲁棒性和适应性,为生物医学知识挖掘和临床应用提供更全面的支持。

这项研究建立的生物医学分层知识图谱和跨文档问答数据集,以及提出的IP-RAR框架,为促进生物医学研究的知识发现和临床应用提供了重要的方法论创新和技术支持,有望在药物协同/拮抗分析、药物重定位假设生成和精准医疗证据合成等领域发挥重要作用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号