生物医学术语系统的量化评估:覆盖度与粒度分析新指标及其在互操作性中的意义

【字体: 时间:2025年10月04日 来源:Scientific Reports 3.9

编辑推荐:

  为解决医疗信息互操作中术语系统选择缺乏客观标准的问题,研究人员开展了一项针对SNOMED CT、LOINC、ICD-10-CM、GO和CPT五大术语系统的量化研究,通过结构规模、映射负担比(MBR)和内容重叠度等新指标,发现SNOMED CT在多数临床领域粒度最优,但特定领域存在例外。该研究为术语系统集成提供了可量化评估工具,对减少语义退化具有重要意义。

  
在现代医疗信息系统中,互操作性已成为支撑数据交换与集成的重要基石。然而,由于不同医学术语系统(Terminology System)在覆盖范围和概念粒度上存在显著差异,导致系统间数据迁移时常发生语义退化(Semantic Degradation)——即概念在转换过程中丢失部分含义。这种语义损失可能造成临床准确性下降、数据质量受损,最终影响患者护理和决策质量。目前,医疗组织在选择术语系统或制定集成策略时,主要依赖主观经验,缺乏客观、量化的评估工具。为此,一项发表于《Scientific Reports》的研究提出了三种新颖的量化指标,用于系统评估生物医学术语系统的综合性和粒度,为语义互操作提供科学依据。
该研究采用的主要技术方法包括:基于UMLS(Unified Medical Language System)Metathesaurus建立概念语义等价关系,利用其CUI(Concept Unique Identifier)识别不同术语系统中的同义概念;通过术语系统三角形模型量化结构规模(Structural Size),即术语系统的宽度(叶子概念数)和深度(平均层级数)的综合指标;计算映射负担比(Mapping Burden Ratio, MBR),用于衡量系统间粒度差异;以及内容重叠度(Content Overlap),评估系统间的概念覆盖重合情况。研究选取了SNOMED CT、LOINC、ICD-10-CM、GO和CPT这五种具有不同拓扑特性(如无标度与小世界网络)和领域专注度的术语系统进行分析,所有数据来源于UMLS MRCONSO和MRHIER表。
研究结果:
  • 结构规模比较:
    SNOMED CT在连接概念数、叶子概念数、平均深度及结构规模上均表现最优,其结构规模远高于其他系统,因此被选为伪金标准(Pseudo-Gold Standard)用于后续MBR计算。
  • 系统级MBR分析:
    以SNOMED CT为参考,大多数系统的MBR值为正,表明SNOMED CT在共享概念空间中提供更细的粒度。但GO的MBR为负(-0.87),说明其在重叠概念区域内粒度高于SNOMED CT。LOINC(0.88)和CPT(0.57)的较高正MBR值提示,从SNOMED CT向这些系统映射时可能发生显著的语义压缩。
  • 分领域MBR分析:
    通过SNOMED CT的17个顶层领域(如临床发现、观察实体、身体结构等)进行分类比较发现,SNOMED CT在多数领域粒度占优,但存在例外:ICD-10-CM在“修饰值(Qualifier Value)”领域、GO在“观察实体(Observable Entity)”领域、LOINC在“分期与量表(Staging and Scales)”领域均展现出比SNOMED CT更细的粒度。分析中还发现UMLS映射存在个别错误,如LOINC的“实验室”概念被错误映射至SNOMED CT的“实验室(环境)”而非“实验室检验(操作)”,纠正后MBR值发生变化。
  • 内容重叠度:
    ICD-10-CM和GO与SNOMED CT的重叠比例较低(分别为13.5%和17.7%),说明这两系统包含大量SNOMED CT未覆盖的概念,具有较强的内容扩展潜力。而CPT与SNOMED CT重叠度较高(60.5%),但仅共享三个领域,表明SNOMED CT可较好覆盖CPT内容。
研究结论与讨论部分强调,所提出的MBR和内容重叠度指标不仅能用于评估现有术语系统,还可实际支持医疗系统迁移中的集成规划。高MBR值结合低重叠度提示术语系统在特定领域具备扩展潜力,但也意味着反向映射时语义退化风险较高。该研究的优势在于首次提供了术语系统粒度和覆盖度的客观量化比较,但存在若干局限:如依赖UMLS映射质量(已知存在粒度不匹配和错误映射)、未考虑非层级关系(如SNOMED CT的属性关系或GO的部分关系)。此外,结果需结合各系统的设计目的解读——例如LOINC采用六部分表格模型描述实验室测量,与SNOMED CT的本体驱动模型不同,其在某些领域的粒度优势可能更符合实际应用需求。
未来研究需验证这些指标与真实互操作性能的相关性,并探索融入定性维度(如概念准确性、计算效率)的综合评估框架。该研究为医疗组织选择术语系统、预测映射工作量、制定扩展策略提供了重要工具,尤其适用于OHDSI和FHIR等标准推动下的跨系统数据整合场景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号