基于本体引导和LLM的mHealth研究假设生成新范式:融合主题建模与语义增强的计算文献综述方法

《IEEE Access》:Ontology-Guided Hypothesis Generation Using LLMs and Topic Modeling in mHealth Research

【字体: 时间:2025年12月04日 来源:IEEE Access 3.6

编辑推荐:

  本研究针对mHealth领域文献爆炸式增长带来的知识整合难题,提出了一种结合本体引导与大型语言模型(LLM)的假设生成新框架。通过TF-IDF、主题建模和领域本体映射提取隐藏语义,利用Gemini模型进行多轮验证生成高质量假设。专家评分显示假设合理性达4.2-4.6分,语义冗余度低,词汇密度高达0.90。该方法为数据驱动的科学发现提供了可解释性强、有效性高的自动化解决方案,显著推进了mHealth研究的智能化进程。

  
随着移动健康(mHealth)技术的快速发展,相关研究文献呈现爆炸式增长,传统文献综述方法难以有效处理海量非结构化文本数据。研究人员面临信息过载、知识碎片化以及缺乏标准化分析方法等多重挑战,亟需开发能够自动提取潜在语义模式并生成有价值科学假设的计算工具。
在此背景下,印度曼尼帕尔理工学院的研究团队在《IEEE Access》发表了一项创新研究,提出了一种结合本体引导和大型语言模型(LLM)的语义管道,专门用于生成领域导向且上下文相关的研究假设。该研究通过分析印度mHealth应用领域的现有文献,建立了一套从文献检索到假设生成的全流程自动化系统。
研究人员采用了几项关键技术方法:首先通过TF-IDF和嵌入式主题模型(ETM)提取文本特征和潜在主题;其次运用Aspect-Qualifier-Action(AQA)分割和点间互信息(PMI)计算揭示术语间关联强度;然后利用mHealth领域本体进行概念层次学习和主题映射;最后通过Gemini模型的多轮提示工程生成和验证假设。研究基于429篇印度mHealth相关文献构建语料库,所有数据均来自Scopus数据库且为公开可用。
语义增强与概念映射结果
研究团队通过PMI共现分析发现,动词分析凸显了mHealth核心活动(如存储、分析、开发),形容词分析则揭示了主要应用领域(如早期检测、心理健康)。嵌入式主题模型将关键术语聚类为主题层次结构,并成功映射到从mHealth本体派生的概念层次结构中。例如,"学生"、"开发者"等词汇被归类在利益相关者概念下。主题图示化展示(topic glyphs)直观呈现了主题与概念间的语义关联,为假设生成奠定基础。
假设生成与验证效果
基于概念-主题映射,研究采用LLM驱动提示生成结构化假设。生成的假设涵盖mHealth系统的三大主题:结构(网络、硬件、流程、软件、政策)、功能(应用、数据、解释、采集、存储)以及利益相关者。五名领域专家使用5点李克特量表评估显示,结构和利益相关者主题的假设平均得分分别为4.6和4.5,功能主题得分为4.2,表明生成假设具有较高合理性。
语义相似度矩阵分析表明,不同假设间余弦相似度普遍较低(0.08-0.49),说明假设多样性良好。词汇密度高达0.90,反映了生成假设的语言灵活性和内容丰富度。虽然语义增强增加了处理时间(从约2500秒增至4900秒),但显著提升了假设的可解释性和有效性。
框架效能与实用性
该研究证实了数据驱动方法在发现因果关系和探索性见解方面的潜力,为mHealth领域的实证验证提供了指导。概念聚类形成了假设生成的基础,而LLM驱动的自动生成与专家验证相结合,确保了领域知识对齐和实际相关性。模块化算法设计使其可适配其他具有丰富文本数据和明确本体的研究领域。
研究结论强调,该管道通过整合自然语言处理、主题建模、本体驱动概念映射和LLM推理,实现了结构化、可解释的假设生成流程。语义增强提高了精确度和相关性,支持印度医疗保健研究的证据化洞察。未来工作可专注于优化语义增强模型,避免生成类似错误模式,并产生更具体、合理的假设。
该方法代表了计算文献综述与科学假设 formulation 艺术的融合,通过计算技术分析海量科学文献文档,为数据驱动的发现过程提供了更高效、更证据化的科学发现工具。特别是在mHealth这一快速发展的领域,该框架为探索未充分研究领域提供了全面分析支持,显著推进了该领域的发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号