CRC-BERT-GCN:基于预训练语言模型和图神经网络预测结直肠癌分子表型的开发与验证
【字体:
大
中
小
】
时间:2025年09月28日
来源:Intelligent Medicine 6.9
编辑推荐:
本研究针对结直肠癌(CRC)分子靶标预测中语义与关系结构捕捉不足的挑战,开发了融合图神经网络的预训练深度学习框架CRC-BERT-GCN。通过对6,468例患者电子健康记录(EHR)和影像报告的分析,该模型在CK-20、Ki-67、P-53和MSI等生物标志物预测中达到73.67%的F1值,较基线模型提升4.39%,为个体化治疗策略提供了可靠的AI驱动决策支持。
结直肠癌是全球第三大常见恶性肿瘤,近年来发病率呈现年轻化趋势,给公共卫生系统带来严峻挑战。2020年全球新增病例约190万例,死亡病例达93万例,预计到204年将增长至320万新发病例和160万死亡病例。这种增长趋势凸显了改善结直肠癌诊疗策略的迫切性。在肿瘤治疗领域,早期检测和准确预后对优化患者治疗效果至关重要。术前预测关键生物标志物能为肿瘤生物学提供宝贵见解,指导个性化治疗策略。CK-20、Ki-67、P-53和微卫星不稳定性(MSI)等生物标志物在此背景下发挥着重要作用:CK-20是检测循环肿瘤细胞(CTC)的成熟标志物,有助于识别转移潜能和指导手术决策;Ki-67作为细胞增殖标志物,P-53作为肿瘤抑制蛋白,与肿瘤侵袭性和复发风险相关;MSI则是免疫治疗反应(特别是抗PD-1治疗)的预测标志物,其存在会影响辅助治疗的选择。
尽管自然语言处理(NLP)技术已在医学领域特别是结直肠癌研究中展现出强大能力,能够从放射学报告、病理学发现和电子健康记录(EHR)等非结构化文本中提取临床相关信息,但现有方法往往难以充分利用医学记录和语料库中复杂的语义和关系结构。大多数模型专注于孤立的任务或有限的文本输入,忽视了可能增强临床洞察的更丰富的关系结构。近年来,将NLP与图神经网络(GNN)等计算技术结合的工作显示出处理医学数据中结构化关系的潜力,同时领域特定的预训练已被证明有利于捕捉细微的医学上下文,但很少有研究专门针对结直肠癌独特的语言和临床特征进行定制。
为了解决这些需求,北京航天中心医院医学影像科的研究团队开展了一项创新性研究,开发了CRC-BERT-GCN框架,该框架通过在结直肠癌重点文本上持续预训练MC-BERT模型,并集成GNN来处理多源EHR数据。研究人员回顾性收集了2012年至2022年间北京某三甲医院的6,468例结直肠癌患者数据,包括电子健康记录和放射学报告,并按分子表型分层划分为训练集(70%)、验证集(10%)和测试集(20%)。
研究采用了几项关键技术方法:基于MC-BERT模型进行结直肠癌领域持续预训练,使用掩码语言模型(MLM)和下一句预测(NSP)任务;构建图神经网络(GNN)编码器处理EHR中的结构化关系,采用两层图卷积网络(GCN) with 64隐藏单元;整合多模态医疗数据包括主诉、MRI和CT检查结果;使用准确率、精确率、召回率和F1值等指标评估模型性能;通过注意力热力图分析增强模型可解释性。所有实验均在Ubuntu 18.04系统上使用4块NVIDIA V100 32GB GPU完成。
数据集构建方面,研究纳入了经病理证实为原发性结直肠癌的成年患者(年龄≥18岁),排除了接受新辅助治疗、核心EHR数据字段不完整或过去5年内有其他恶性肿瘤病史的患者。数据预处理包括数据清洗、标准化、检查数据处理、目标信息处理和数据集分割等步骤,确保了数据质量和一致性。
CRC-BERT框架设计包含任务定义、持续预训练、GNN编码器、模型训练和预测输出等模块。任务定义为多类文本分类任务,输入为患者的电子健康记录(EHR),输出为四种生物标志物的概率分布。持续预训练使用CRC相关文本数据对MC-BERT进行进一步训练,获得优化的CRC-Bert模型。GNN编码器使用GCN处理图结构数据,捕捉特征间的潜在关系。
实验结果显示,CRC-BERT-GCN模型在所有评估指标上均优于所有基线模型,取得了最佳性能,F1值达到73.67%。与基线模型相比,准确率提高了4.25%,F1值提高了4.39%,证明了整合GCN进行生物标志物预测的有效性。消融研究表明,2层GCN结构和64个隐藏单元的组合能够最有效地捕捉输入特征间的复杂关系,同时保持模型的泛化能力。
注意力热力图分析揭示了模型在处理不同生物标志物预测任务时表现出多样化的注意力分配策略。对于Ki-67,注意力主要集中在"增厚"和"局部"等与病理特征高度相关的词汇上;MSI的注意力则更为分散,特别是在"结肠"和"肠壁"等词汇上,反映其预测需要更复杂的上下文信息;CK的注意力分布与MSI相似但更集中于中间词汇;P53注意力热力图显示出独特模式,注意力集中在特定词汇如"增厚"和"交界处"上。这些分析有助于理解模型在复杂医学文本中的性能,并增强了模型的可解释性。
研究的讨论部分指出,CRC-BERT-GCN框架在结直肠癌生物标志物预测任务中的表现显著优于基线模型,证明了在CRC相关数据上进行领域特定预训练和基于图的特征建模的有效性。特别是整合多样化文本来源(如EHR、放射学报告)与GCN有助于捕捉CK-20、Ki-67、P-53和MSI等生物标志物间的细微关系,从而改进精准肿瘤学中的临床决策支持。
该研究的主要贡献在于提出了结合PLM和GCN的新模型框架,通过特定领域的持续预训练和引入GCN进行特征关系建模,在多个评估指标上展现出优越性能,显著优于现有基线模型。实验结果表明,这种方法能有效整合和利用电子健康记录中的复杂信息,提高预测准确性和鲁棒性。
尽管该研究在特定领域取得了重要进展,但仍存在一些局限性。模型相对复杂,训练成本较高;数据来自单一医院,可能影响研究结果 beyond 该特定患者群体的普适性;GCN结构和超参数调优仍依赖经验,可能限制模型对其他任务的泛化能力。
基于研究发现,未来研究可从几个方向展开:探索不同类型的GNN结构,如图注意力网络(GAT),以进一步提高特征关系建模的效果;整合更多多模态数据,如将影像数据与文本数据结合,提高预测的准确性和鲁棒性;在更大规模和更多样化的医疗数据集上验证模型的泛化性能和实用性;开发更轻量、更高效的模型以降低计算成本,使其更适合实际临床应用。
总之,这项研究为使用深度学习技术进行医学文本分析提供了新的方法和视角,在医学领域具有深远而广阔的应用前景。通过结合先进的自然语言处理技术和图神经网络,CRC-BERT-GCN框架为结直肠癌的精准医疗提供了有力的技术支持,有望在临床决策支持系统中发挥重要作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号