基于三层语义框架的公共卫生智能数据集成与疫情态势感知创新研究

【字体: 时间:2025年09月17日 来源:Journal of Biomedical Semantics 2

编辑推荐:

  本刊推荐:为解决传统疾病监测系统数据碎片化、缺乏上下文关联等问题,研究人员开展基于本体论(Ontology)的三层语义框架研究,实现了多源异构数据的语义集成与知识推理。该框架成功应用于意大利足球赛事与COVID-19传播的案例研究,通过RDF三元组构建关联数据,支持异常检测和跨域查询,为公共卫生智能(Public Health Intelligence)提供了可扩展的语义解决方案。

  

当新型冠状病毒疫情以惊人的速度席卷全球时,各国公共卫生系统面临着前所未有的挑战。传统的疾病监测系统虽然能够提供基础疫情数据,但其碎片化的数据结构和缺乏上下文关联的局限性,使得决策者难以全面把握疫情传播的复杂动态。特别是在意大利贝加莫举行的欧冠足球赛事与疫情暴发之间的关联性分析中,传统系统无法有效整合赛事信息、航班数据、病例轨迹等多维度信息,暴露出公共卫生智能领域长期存在的数据孤岛问题。

这种数据割裂的现状促使科研人员寻求新的技术解决方案。语义网技术的兴起为本体论驱动的数据集成提供了可能,通过建立机器可读的语义关系,能够实现跨域数据的深度融合。然而现有的传染病本体如IDO(Infectious Disease Ontology)及其衍生版本(IDOMAL、IDOBRU等)多专注于疾病本身的概念建模,缺乏对公共卫生事件中地理、社会、行为等多维度上下文信息的支持。

针对这一研究空白,来自德国弗劳恩霍夫算法与计算科学研究所的Sathvik Guru Rao等学者在《Journal of Biomedical Semantics》发表了创新性研究成果。研究团队设计了一个三层语义框架,通过本体论技术将分散的公共卫生数据转化为互联的知识网络,为疫情监测提供了全新的解决方案。

研究采用多模态数据融合技术路线,主要关键技术包括:基于Protégé工具和OWL(Web Ontology Language)语言的 ontology 工程构建方法;通过Ontology Lookup Service(OLS)和Ontofox工具实现的 ontology 概念复用机制;基于Apache Jena Fuseki的RDF三元组存储与SPARQL查询技术;应用RDFS Rule Reasoner进行知识推理;以及利用Neo4j实现的知识图谱可视化。数据来源涵盖WHO新冠肺炎线列表(COVID-19 line list)、EIOS(Epidemic Intelligence from Open Sources)开源情报、FlightAware航班数据和体育赛事日程等多源异构数据集。

研究结果主要体现在三个层面的创新突破:

在架构设计方面,团队创建了包含99个类、8个对象属性的开放参考 ontology(ORO),作为顶层概念框架。其下构建了16个领域 ontology,覆盖化学物质、灾害、疾病、食品安全、免疫系统、群众集会、生物有机体等公共卫生相关领域,共包含1,717个 ontology 类。最底层则设计了针对COVID-19线列表数据的应用 ontology,实现了具体数据集到语义概念的映射。

在数据集成方面,研究成功将420万份EIOS文档转化为15亿条RDF三元组,将151万行COVID-19线列表数据转化为1.123亿条三元组,同时整合了233万条航班记录和1.9万项体育赛事数据,构建了大规模公共卫生知识图谱。通过SPARQL查询实现了跨数据源的语义关联,例如成功关联了足球赛事、举办场馆、航班信息和地理名称等原本孤立的数据元素。

在知识发现方面,研究演示了如何通过语义推理发现潜在疫情传播模式。系统能够识别参加群众集会的个体与确诊病例之间的时空关联,推断可能的传播路径,并通过属性图(Property graph)可视化展示这些复杂关系。特别是对贝加莫足球赛事与疫情暴发的关联分析,证明了框架在现实场景中的实用价值。

研究的核心结论在于验证了分层 ontology 架构在公共卫生智能领域的有效性。与传统的单一 ontology 方案相比,三层架构(参考层-领域层-应用层)既保证了概念的一致性,又提供了足够的灵活性来适应不同应用场景。这种设计使得领域专家能够专注于特定领域的 ontology 开发,而通过上层 ontology 的映射维持整体概念体系的协调性。

值得注意的是,研究也揭示了语义技术在公共卫生应用中的挑战。 ontology 维护、版本管理和专业人才培养是需要持续投入的领域。特别是将应用 ontology 映射到领域 ontology 的过程需要大量领域专家参与,这在应急响应场景中可能面临时效性挑战。

这项研究的深远意义在于为下一代公共卫生监测系统提供了可扩展的技术框架。通过语义技术实现的多源数据集成,不仅能够提升疫情监测的时效性和准确性,更重要的是为理解疫情传播的社会行为因素、环境影响因素等复杂机制提供了分析基础。随着全球公共卫生体系对智能预警需求的不断提升,这种基于本体论和知识图谱的方法论有望成为未来公共卫生信息系统的标准架构,为应对新型传染病威胁提供强有力的技术支撑。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号