
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基因EX:表型驱动算法革新单基因病致病变异识别新纪元
【字体: 大 中 小 】 时间:2025年09月24日 来源:Molecular Genetics & Genomic Medicine 1.6
编辑推荐:
本文推荐基因EX算法,其整合大语言模型技术实现表型自动提取与标准化(HPO),并通过语义向量模型增强表型-基因关联分析,显著提升单基因病致病变异筛查的精准性与效率,为临床诊断提供创新解决方案。
单基因遗传病的诊断过程中,致病性变异的识别是关键环节。随着二代测序(NGS)技术的广泛应用,诊断效率显著提升,但临床对诊断准确性的要求日益提高,如何从海量候选变异中快速精准定位致病变异仍是重大挑战。数据分析与解读的复杂性持续制约着诊断效率和准确性。
本研究开发了创新表型驱动算法基因EX,其整合大语言模型技术精准提取临床信息中的表型,通过语义向量表示模型自动获取人类表型本体(HPO)信息,进而识别HPO关联基因。同时支持患者自由文本表型描述与疾病表型的语义匹配,进一步加强致病基因识别。该算法可对候选致病变异排序,实现罕见遗传病潜在致病变异的快速精准定位。
基因EX在虚拟和临床数据集上均展现出优异的致病变异排序性能。自由文本表型的补充匹配显著提升样本候选变异优先排序的精确度。
基因EX通过自主研发的表型提取与标准化方法实现HPO自动获取,从而完成从临床样本到致病变异的全流程自动化识别。通过融合自由文本表型描述与疾病表型匹配,提升致病基因识别准确性。该创新方案显著提高罕见遗传病致病变异识别的精确度与效率,为单基因病诊断提供有力支持。
单基因病是由单对等位基因控制的遗传性疾病,遵循经典孟德尔遗传规律。根据OMIM数据库信息,目前已知超过8000种单基因病,分为常染色体显性遗传、常染色体隐性遗传和X连锁遗传等类型。据世界卫生组织估计,全球约6%的婴儿出生时患有先天性异常,如遗传性耳聋、地中海贫血和苯丙酮尿症等,这些疾病严重影响婴儿心脏功能、语言能力、智力发育和行为协调等关键方面。然而,大多数单基因病仍缺乏有效治疗方法和药物。对这些疾病而言,出生后未能及时诊断和治疗可能导致早期婴儿死亡。
自2008年以来,基于二代测序(NGS)的全外显子组测序(WES)和全基因组测序(WGS)成本显著降低,极大提高了单基因遗传病的诊断率。然而,患者表型信息的提取和标准化,以及NGS产生的大量数据,对诊断过程构成重大挑战。在WES数据过滤和报告的常规临床诊断流程中,传统方法需要人工筛选和匹配150-300个变异,既耗时又费力。目前已有多种表型驱动的基因和变异优先排序算法工具被开发,包括Phen-Gen、PhenIX、Exomiser、Phenolyzer、Xrare、LIRICAL、AMELIE、CAVaLRi、AI-MARRVEL和GENET等。其中GENET是基于大语言模型的创新算法,但近期评估研究表明,基于大语言模型(LLM)的表型驱动算法缺乏准确性,且存在偏向性。
尽管上述工具在临床诊断中展现出重要价值,但大多数需要将患者临床表型信息转换为标准化表型术语,如HPO。然而HPO呈现的表型信息可能存在一定偏差,仍需遗传学家人工校正和补充。我们开发的创新算法基因EX通过基于表型文本描述和HPO独立获取关联基因,快速缩小目标变异范围,实现致病变异的精准识别。该算法提升临床医生诊断效率,有效降低临床诊断成本。
选择HGMD、OMIM、GPCards和1000 Genomes Project等数据源构建算法拟合和评估用的拟合与测试数据集。每个数据集包含变异调用格式(VCF)文件、表型以及临床专家整理的诊断变异。所有变异使用VEP和Annovar进行注释。
具体数据组装细节显示:使用1000 Genomes进行数据集组装,形成OMIM-1000Genomes数据集(OGD,7403例)、HGMD-1000Genomes数据集(HGD,9335例)和GPCards-1000Genomes数据集(GGD,5182例)。三个数据集间变异无重叠,所有变异均收集了对应表型信息。1000 Genomes项目根据内部变异注释流程,对2504个样本的变异进行注释过滤,最终保留163,206个变异。保留变异随机分配 zygosity 状态并组装成单样本VCF文件,同时将致病变异插入样本VCF文件。每个样本保留约150-300个变异。
聚合数据集(AGD)将上述三个数据集合并以确保算法数据多样性和拟合有效性。该数据集分为拟合数据集和测试数据集。临床数据集(n=67)由内部临床诊断实验室提供。本研究遵循《赫尔辛基宣言》伦理原则,并经上海市第一妇婴保健院伦理委员会批准。
基因EX结构包含四个主要步骤:临床表型提取与标准化处理;疾病-表型数据库构建;表型关联评分优化;基因型-表型综合评分计算与变异排序。
临床初始描述常含噪声,人工提取耗时且需大量专业知识。尽管现有方法如PhenoTagger和ClinPhen已开发用于快速表型提取,但在处理复杂临床文本时仍有局限。与传统表型提取方法相比,大语言模型(LLM)展现出卓越的语义理解能力,能更精准处理复杂临床文本。
本研究提出基于大语言模型微调的自动化表型提取方法。首先收集患者个人信息、病史和家族史作为训练数据,使用LLM辅助标注临床文本中的表型内容,经人工审核确保准确性。选择大规模预训练模型Mistral-Nemo-Instruct-2407作为基础模型,在标注的临床表型数据集上微调。微调后的LLM能够从复杂临床文本中提取表型。该方法有效区分先证者表型与家族史中的表型,在处理模糊或重叠表型描述时表现良好。
此外,采用SimCSE框架增强表型诊断中领域特定文本的语义表示。从HPO数据库整理配对表型描述及其同义词,标注上千对真实世界样本(即临床表型与HPO标准表型的对应关系)作为训练数据。使用BERT预训练模型,在SimCSE框架内训练模型学习表型的语义向量表示。该方法通过向量表示和相似度计算,将自由文本表型描述标准化为专业HPO术语。
为便于检索疾病相关表型内容,基于专业疾病数据库的疾病描述构建疾病-表型库,并以向量化格式存储表型。提取疾病表型后,建立连接不同表型与相关疾病的词典。由于大量文本实时向量化耗时,使用预训练语义表示模型将疾病中不同表型向量化,结果有序存储在Faiss库中,实现相似向量快速检索。
传统表型驱动致病变因基因识别通常涉及从先证者临床描述提取表型,标准化为HPO术语,然后将这些术语匹配致病变因基因。该方法依赖HPO术语精确匹配以确保致病基因准确识别。然而部分临床表型可能无法直接匹配标准HPO术语。为解决该局限,在表型驱动基因评分中采用以下两种策略:匹配HPO术语至HPO2Gene知识库(H2GKB)以识别特定HPO术语相关致病变因基因;计算自由文本表型描述与疾病表型间语义相似度以识别疾病相关致病变因基因。
Phen2Gene是基于HPO的基因优先排序工具,为每个HPO术语提供基因加权排序。本研究使用第2.1和2.2节描述的自动化方法获取标准化HPO列表,采用Phen2Gene计算与整体HPO谱相关基因评分。
基于构建的疾病-表型库,可计算任何给定表型与疾病中表型的语义相似度。但为更准确表示患者临床信息与疾病描述的整体关联,需将其作为整合实体计算总体相关性。
假设患者临床信息经处理提取并标准化为N个表型向量,利用Faiss中的KNN算法识别疾病-表型库中与这些N个向量相似的K个表型。相似度计算为S(i,j) = hiThj / ||hi||·||hj||,其中hi和hj代表两个不同向量。实验结果表明当相似度超过0.75时,两个向量呈现强语义相关性。
本研究提出基于表型相似度计算的关联疾病和致病基因二维排序系统。第一维度是临床表型信息中疾病相关表型的比例(临床表型比率,CPR),第二维度是疾病本身包含的所有表型比例(疾病表型比率,DPR)。计算公式为CPRl = kl/N 和 DPRl = Σj=0kl s(l,j) / Ml,其中kl代表疾病l中与患者表型相关的表型数量,s(l,j)代表疾病l中第j个相关表型的相似度值,Ml代表疾病l中表型总数。基于CPR和DPR值对疾病排序,优先选择包含较多相关临床表型的疾病,其次选择特异性较高的疾病。疾病排序完成后,根据OMIM中疾病-基因对应关系计算致病基因评分。
基于遗传变异相关特征,可评估变异的致病潜力。整合两种表型关联评分和变异基因型评分,采用逻辑回归模型对患者变异排序。排序结果呈现为0到1之间的连续值,反映患者表型与变异致病性的综合评分。优先标准按优先级降序为:表型和变异均具强相关性和致病性;表型强相关但变异致病性较弱;变异致病性较强但表型相关性较弱;表型和变异相关性和致病性均弱。
算法实现中,使用以下六类数值特征作为输入:自由文本表型关联基因评分、HPO关联基因评分、ClinVar和HGMD等数据库聚合的变异致病性评分、遗传模式、变异计算机预测评分和人群中等位基因频率。
首先将这六类特征归一化以促进模型拟合。数据准备阶段,数据分为训练集和测试集。模型构建过程中,使用训练集拟合模型参数,测试集评估模型性能。
本研究模型表达式为:logit(Pi) = ln[Pi/(1-Pi)] = β0 + β1xi1 + β2xi2 + … + βnxin,其中Pi表示患者表型与第i个变异致病性关联的概率,x代表特征。具体地,Pi = 1 / [1 + e-(β0+β1xi1+β2xi2+…+βnxin)]。该方法通过组合特征集整合基因型和表型特征,实现疾病相关致病变异的排序,确保排序结果的准确性和可靠性,为后续临床诊断和治疗提供有力支持。
为比较基因EX与其他算法,基于已发表的基准研究选择四种开源表型驱动变异优先排序工具:LIRICAL、CAVaLRi、Exomiser和Xrare。这些工具因性能、实用性和数据可用性被选为基准, enable 与该领域其他新兴工具的严格评估。上述算法使用ClinPhen从患者表型描述统一提取HPO术语并输入分析。
在1168个合成样本上比较基因EX与现有表型驱动变异优先排序方法(LIRICAL、CAVaLRi、Exomiser和Xrare)的性能,测试数据集包含来自HGMD、OMIM、GPCards和1000 Genomes Project的合成病例。与其他算法相比,Exomiser(hiPHIVE)在top1(77.74%)、top10(94.61%)和top20(96.83%)实现最佳性能。CAVaLRi在top5(92.98%)表现更好,而基因EX和Exomiser(hiPHIVE)在top10展现同样优异性能。
对合成数据集的进一步分析显示,在OGD中,CAVaLRi在top1(93.33%)和top5(97.70%)优于其他四种算法,而基因EX在top10(97.01%)和top20(97.70%)表现更优。在HGD中,Exomiser(hiPHIVE)在top1(86.27%)和top20(98.98%)达到最佳性能,CAVaLRi在top5(97.34%)和top10(98.36%)表现优异。基因EX虽稍逊于这两者,但也展现出显著性能。对于GGD,Exomiser(hiPHIVE)在top1至top20均优于其他算法。总体而言,无论变异数据来源如何,Exomiser(hiPHIVE)、CAVaLRi和基因EX在致病变异优先排序中均表现令人满意,彼此无显著差异。相比之下,Xrare表现相对较差,而LIRICAL显著弱于其他。
基因EX性能分析显示其在OGD中的优越性。微调后的大语言模型凭借增强的语义理解能力,能更精准处理复杂临床文本。此外,基于该模型的自由文本表型补充可弥补HPO术语的不足。因此认为OGD中丰富复杂的患者信息是基因EX性能更优的主要原因。总之,与现有表型驱动变异优先排序方法相比,基因EX仍具一定优势,尤其在处理复杂临床信息样本时。
大语言模型展现增强的语义理解, enable 更精准处理复杂临床文本。鉴于真实世界临床环境中表型描述的复杂性,本研究创新性采用微调大语言模型从复杂临床文本提取表型。随后使用内部真实世界临床数据集(n=67)对基因EX和上述算法进行基准分析。同时对基于HPO术语匹配的基因EX(称为基因EX(HPO))进行并行评估。
结果显示基因EX在top1(41.79%)、top5(82.09%)、top10(95.52%)和top20(97.01%)排名均位列第一。尽管基因EX(HPO)表现不及基因EX,但其性能与CAVaLRi相当。值得注意的是,基因EX(HPO)在top5(76.12%)、top10(88.06%)和top20(89.55%)排名中优于Exomiser(hiPHIVE)。这些结果凸显纳入自由文本表型注释对致病变异优先排序的积极影响。总之,真实世界临床数据集的基准结果表明,基因EX基于标准HPO的表型-基因型匹配与CAVaLRi、Exomiser(hiPHIVE)和Xrare等领先算法表现相当,满足临床诊断需求。然而,整合HPO术语与自由文本注释的表型匹配模型进一步提升候选变异优先排序的精确度。
本研究提出基因EX,一种表型驱动变异优先排序算法。方法包括:收集患者临床信息,使用微调大语言模型精准提取临床表型,通过语义向量表示模型自动获取高质量HPO术语,进而识别HPO相关致病基因;构建疾病表型库并以向量化形式存储表型,实现快速检索;定义公式评估患者表型描述与疾病表型间的语义关联,计算疾病相关基因评分,进一步加强致病基因识别。
合成和临床数据集结果表明,基因EX展现出与当前领先算法相当甚至更优的性能。与其他算法相比,基因EX独特的整合数据分析流程无需人工审核输入HPO术语或依赖ClinPhen等外部工具进行表型提取,为分析人员节省宝贵时间。通过该创新优先排序算法,基因EX显著提升候选变异优先排序准确性,使分析人员能更精准识别潜在致病变异。基因EX将单样本处理时间从1-1.5小时缩减至0.1-0.2小时,显著提高分析效率。目前基于该算法开发了交互式在线平台基因EX,通过基于网络的界面 facilitate 临床医生变异分析。总之,基因EX为临床医生和研究人员提供更高效选择,促进早期临床诊断和有效医疗干预。
然而本研究存在若干局限。尽管基因EX在合成和临床数据集上展现出强劲性能,但相对较小的临床数据集(n=67)可能无法完全反映其真实性能。未来工作中,计划在更大临床数据集上进行进一步优化和验证,以提升算法优先排序准确性。例如,DDD数据集被公认为发育障碍研究的黄金标准,几种领先算法已使用该数据集进行基准测试。计划在未来研究中使用该数据集评估基因EX性能。此外,虽然基因EX目前支持单核苷酸变异(SNVs)和小插入或缺失(indels)分析,但尚无法分析某些变异类型,如拷贝数变异(CNVs)、重复扩展和结构变异(SVs),这些变异预计将占剩余阳性病例的一部分。另一方面,即使在最权威的疾病数据库(如OMIM)中,许多罕见病仍缺乏足够表型和/或遗传证据。但随着更多罕见病及相关研究发表,这些数据库的全面性将持续改善,为基因EX的进一步优化提供额外机会。
总之,尽管基因EX目前存在一定局限,我们正通过持续技术创新与合作积极应对这些挑战。相信随着技术不断进步和数据资源整合,基因EX将在遗传疾病诊断和治疗中发挥日益重要作用。
生物通微信公众号
知名企业招聘