
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:机器学习在癌症预后和诊断生物标志物中的应用:一种早期癌症检测的前景广阔的方法
【字体: 大 中 小 】 时间:2025年09月21日 来源:Sensors and Actuators Reports 7.6
编辑推荐:
本综述系统阐述了机器学习(ML)和深度学习(DL)在癌症生物标志物发现与应用中的前沿进展,涵盖了从基因组学、蛋白质组学到医学影像(MRI、CT、PET)的多模态数据分析。文章重点探讨了人工智能(AI)如何提升癌症早期诊断、预后预测(如生存率分析)及个性化治疗(如免疫治疗反应预测)的精准度,并深入分析了支持向量机(SVM)、随机森林(RF)、卷积神经网络(CNN)等关键算法在识别新型生物标志物(如CA125、CEA、PSA及ctDNA)中的效能。同时,综述也指出了当前面临的挑战,如数据稀缺、模型可解释性以及临床转化中的伦理考量,为跨学科合作(数据科学家、临床医生、生物学家)推动精准肿瘤学发展提供了重要见解。
癌症是一种由遗传和表观遗传改变引发的多因素疾病,其特点是细胞生长和程序性细胞死亡(凋亡)的调控失调,导致不受控制的细胞增殖和最终肿瘤形成。早期癌症检测至关重要,它能显著提高成功治疗的几率。近年来,机器学习(ML)和深度学习(DL)已成为生物标志物识别和医疗工程中的关键工具。人工智能(AI)的进步扩展了这些技术在各个医疗领域的应用,特别是在癌症诊断、预后和治疗方面展现出变革性潜力。
肿瘤生物标志物是存在于肿瘤组织或体液(如血液、尿液)中的特定物质,可能来源于肿瘤本身或机体对肿瘤的免疫反应。自1846年发现第一个肿瘤标志物Bence-Jones蛋白(BJP)以来,该领域已取得显著进展。识别和分析这些标志物对于癌症诊断、监测治疗效果和预测患者结局至关重要。当前的肿瘤特征包括14个主要标志,如维持增殖信号、逃避生长抑制、实现复制永生、诱导血管生成、抵抗细胞死亡、激活侵袭和转移、基因组不稳定、肿瘤促进性炎症等。技术方面,免疫测定、分子杂交、基因扩增检测、免疫组织化学(IHC)、DNA测序和液体活检等均被用于生物标志物检测。
生物标志物的评估标准不如治疗药物严格,后者依赖随机试验来控制偏倚和混杂因素。生物标志物研究常采用观察性或临床流行病学方法,定义较不清晰。然而,应用临床流行病学原理可通过解决异质性和偏倚问题来加强分子标志物的评估。例如,异常p53表达可能是特定人群(如近端结肠腺癌)的不良预后因素,但不适用于其他人群,凸显了患者人群多样性带来的潜在偏倚。此外,高级基因组学和蛋白质组学分析改善了对癌细胞分子特征的理解,但对每个生物标志物进行临床试验存在成本和时间的实际挑战。小样本量和非随机化的训练验证集容易导致过拟合,因此需要通过盲法样本评估、多实验室标准化协议以及将样本分为训练集和验证集来确保结果的可重复性和可转移性。
单一生物标志物难以达到完美的预测值,因此生物标志物组合板在临床应用中更具前景。验证这些标志物对癌症患者的诊断、预后和风险评估至关重要。例如,将CA125与触珠蛋白α链(Hp-α)结合,对早期卵巢癌的敏感性可达91%,特异性达95%。类似地,在结直肠癌(CRC)诊断中,逻辑回归模型利用五个关键肿瘤生物标志物和年龄实现了90%的敏感性。高通量基因组和蛋白质组技术为发现和量化生物标志物组提供了机会,从而提高了癌症检测的准确性。在设计生物标志物组合时,选择代表不同通路的标志物至关重要,因为来自相互关联通路的标志物可能无法提供额外的见解。
将AI整合到生物标志物研究中可以通过提高敏感性和特异性来增强癌症诊断。当前的筛查方法(如乳腺X线摄影和前列腺特异性抗原(PSA)测试)常常产生不准确的结果。AI驱动的算法可以识别与特定癌症亚型相关的特定生物标志物模式,并分析复杂的组织病理学图像,从而提高诊断精度。AI在区分癌症患者和健康个体方面已显示出其实用性,支持了精准医疗和个性化治疗选择。结合下一代测序(NGS),AI有助于风险评估、早期诊断和生物标志物发现。例如,结合放射学和基因组信息的肺癌AI增强诊断在早期识别和靶向治疗方面显示出前景。AI衍生的生物标志物在预测患者结局和指导治疗决策方面具有临床意义。在癌症免疫治疗中,AI可以识别最可能从检查点抑制剂等治疗中获益的患者生物标志物特征。此外,AI驱动的预后生物标志物可以监测患者信息中的细微变化,如循环肿瘤DNA(ctDNA)或RNA,从而在临床症状出现前早期识别复发或耐药,实现及时的治疗调整。新兴领域如肿瘤成像、肿瘤病理学、放射组学、病理组学和放射基因组学利用AI将成像特征与生化通路联系起来,从而推进癌症筛查、肿瘤表征和临床决策。
ML在医疗保健领域的应用近年来显著扩展,特别是在肿瘤学领域。ML平台通过提供结合软件、硬件和流程的统一框架,简化了模型开发和部署。它们标准化并自动化了ML模型的生命周期,包括数据管理、创建、验证、部署和性能监控。在病理学和医学中,ML提高了诊断准确性和患者护理,同时简化了操作。AI平台正在改变医学影像分析和解读,支持如X射线、MRI的自动分析以识别异常和辅助疾病诊断。AI和ML还通过图像分割和量化增强病理学,帮助病理学家识别和测量组织结构和细胞类型,从而提高准确性、一致性和生产力。整合AI和ML到临床决策支持系统中,通过实时分析临床数据、提供循证建议和检测异常来改善诊断准确性和支持定制治疗方法。
利用微生物组进行癌症应用的ML模型的有效性在很大程度上取决于数据的多样性和质量以及具体任务。必须评估各种模型,因为它们的性能可能差异很大。随机森林(RF)通常因其可解释性和有效性的平衡而受到青睐,但对于癌症筛查等关键应用,可能需要更复杂的模型(如提升树或神经网络),尽管它们的计算需求更高。深度神经网络需要大量的训练数据,这在癌症微生物组研究中常常有限。支持向量机(SVM)在有限数据集的情况下可以考虑,但它们需要大量的超参数调整,并且不适用于多类分类。在寻找微生物组相关的癌症生物标志物时,理解ML模型的见解至关重要,通常比最大化性能更重要。简单、可解释的模型(如决策树和逻辑回归)可能是理想的选择。然而,决策树可能具有高方差且难以泛化,而逻辑回归仅限于线性决策边界,可能不适合所有任务。评估ML模型的性能对于确保良好的泛化和减少偏倚(包括技术伪影)至关重要。应使用与训练数据不同的留出数据集进行此评估。数据泄漏(当训练数据被纳入测试数据集时)可能导致对模型性能和泛化能力的误导性评估。在选择超参数时,必须同样谨慎。为了确保所选值能提高模型在新数据上的性能,必须通过交叉验证来确定它们。在特征转换和降维过程中防止数据泄漏对于泛化至关重要。
传统ML算法专注于由特定特征(如患者年龄或基因突变状态)定义的表格数据来预测标签。关键算法包括使用集成决策树的随机森林和使用超平面区分类别的支持向量机(SVM)。回归模型(如线性和逻辑回归)通过特征的线性组合预测标签。随着GPU的进步,深度学习(DL)已经出现,通常在预测任务中优于传统ML方法。DL模型采用由神经元层组成的神经网络,这些神经元计算输入的加权和并应用非线性函数。这些网络为输出预测生成嵌入。它们比传统ML模型提供更大的灵活性,可以适应各种类型的非结构化数据(如图像、文本和语音),并且减少了对特征工程的需求。然而,它们需要更多的训练数据,使得传统模型在数据有限或表格任务的情况下更合适。神经网络的架构(如神经元数量、层数和连接)必须根据数据的具体特征进行定制,以有效处理非表格数据。卷积神经网络(CNN)用于图像处理,而图神经网络(GNN)分析如图像细胞相互作用的图结构。循环神经网络(RNN)和Transformer处理顺序数据,包括遗传序列。每个模型都有特定的架构,如用于CNN的ResNet和U-Net,以及用于RNN的LSTM和GRU。有效的学习需要数据准备,包括处理缺失特征和异常值。在使用ML模型时,输入特征必须与特定模型类型对齐;例如,神经网络需要实数输入向量,分类特征(如癌症类型)通常被转换为独热向量。传统ML技术在scikit-learn库中可用,而DL框架可以使用PyTorch和TensorFlow构建。为了达到最佳结果,这些模型通常需要超参数优化,因此必须维护一个单独的验证数据集用于此目的,与测试数据集分开,测试数据集应仅在超参数最终确定后进行评估。
医疗保健中的多模态AI结合了不同类型的数据,如医学影像、基因组信息和临床记录,以改进决策和患者护理。与单模态模型相比,它提供了优势,包括需要更少的数据、在上下文丰富的场景中表现更好,以及通过整合的见解提高诊断精度。通过合并各种数据源(如组织病理学图像和基因组信息),多模态AI揭示了复杂的模式和关联,从而实现更准确的诊断和预后评估。例如,一种多模态DL方法评估了多种癌症类型的病理学和分子数据,以预测患者结局并最小化诊断错误。此外,它通过自动化数据整合加速了诊断过程,这在紧急情况下至关重要,同时促进了根据个体患者档案定制的个性化治疗选择。人工智能算法结合基因组信息、成像结果和临床细节,根据疾病风险、预后和治疗反应对患者进行分类。这种精准医疗方法帮助医疗专业人员改进治疗计划,减少副作用,并改善患者结局。AI驱动的系统可以通过分析患者人口统计和疾病特征来推荐靶向治疗和临床试验,从而实现及时和基于证据的治疗决策。
多代理系统由多个AI模型组成,它们直接协作处理复杂任务并增强决策过程。AutoGen和crewAI等框架旨在模拟人类团队中观察到的协作行为,允许多个具有特定技能的AI代理协作解决复杂问题。与传统的单模型方法不同,这些多代理系统提供对数据的多样化视角,丰富了理解并鼓励跨学科见解。它们与多模态系统不同,后者将不同类型的数据整合到一个连贯的模型中;相反,多代理框架由处理专门任务的独立代理组成,以增强适应性和模块化决策。这些代理执行诸如图像分析、自然语言处理和预测分析等角色,在诊断和治疗规划等领域协助临床医生。总体而言,这些框架内的协作平台改善了医疗专业人员和AI系统之间的沟通,最终增强了患者护理并优化了工作流程。多代理框架在医疗保健中的一个乐观用途在于临床决策和工作流程优化。这些框架可以改进决策过程,特别是在病理学等需要快速且信息有限做出复杂选择的领域。通过整合分析工具(如图像分析、自然语言处理和预测分析),多代理系统促进协作数据评估。例如,一个代理可能专注于从病理图像中提取特征,而另一个分析临床文本,共同提高诊断精度。此外,这些框架可以通过提供基于患者病史和测试结果的建议来减少医疗专业人员的工作量。它们还能够简化调度,改善提供者之间的沟通,并通过整合各种患者数据支持肿瘤委员会等环境中的协调护理。这促进了病理学家、放射学家和与患者直接互动的提供者之间的协作氛围,从而在解决医疗系统固有复杂性的同时提高了护理质量。
人工通用智能(AGI)是一种能够理解、学习并在人类水平上跨各种任务应用知识的AI。截至2024年8月,AGI尚未实现,但最近的AI发展显示出巨大潜力。与为特定任务设计的狭义AI不同,AGI理论上能够执行人类可以执行的任何智力任务, potentially 改变医学等领域。人工智能的先进研究专注于开发能够跨各种任务理解和应用知识的人工通用智能(AGI)系统。AGI对医学的影响可能是深远的, potentially 改变医疗服务和护理标准。AGI可以分析患者病史、治疗计划、遗传数据等,以预测疾病风险并建议预防措施。它还可以协助复杂手术、监测健康状况并提供个性化健康建议。此外,AGI有潜力通过预测新化学候选物的功效和安全性来简化药物发现过程,从而减少将新疗法推向市场的时间和成本。将人工通用智能(AGI)整合到医疗保健中的未来显示出巨大前景,尽管在当前的AI工具中尚不可用,这些工具主要专注于狭义AI任务,如图像分析和预测建模。人们对开发AGI系统以通过整合多样化健康数据来增强临床决策越来越感兴趣。然而,创建AGI面临重大挑战,包括需要高质量数据、模拟复杂人类认知以及解决伦理问题。尽管存在这些障碍,AGI可能导致更准确的诊断、个性化治疗计划和改进的健康管理策略, potentially 解决如 rising 医疗成本和专业短缺等问题。AGI的进步也将引发重要的伦理和社会问题,需要广泛利益相关者的参与来塑造其在医疗保健中的开发和应用。
使用ML模型显著增强了患者的预后预测,提供了比传统分期算法更精确的替代方案,特别是在肿瘤学中。及时评估可以极大地影响治疗决策和结果。此外,ML促进了在护理点快速创建医疗化合物。通过优化配方和合成过程,医疗提供者可以根据个体患者需求定制治疗,改善医疗提供并 potentially 提高患者结局。
放射组学是人工智能中的一个专业领域,专注于计算、识别和从图像中提取特征,并开发预测或预后数学模型。这种创新且不断发展的工具通过使用ML分析临床数据,提供了有价值的诊断见解。这种方法以其非侵入性品质为定义。可以识别不同的参数关系。唯一的必要条件是拥有代表患者群体的数据。采用AI的显著优势是显而易见的。放射肿瘤学中的一个主要关注点是医学诊断图像描述的不一致方式。这种可变性可能显著影响预测模型,并最终影响患者治疗结果。医生注释图像的差异导致解读差异。标准化这些描述对于提高模型准确性和增强患者管理至关重要。例如,Sleeman等人引入了一种方法与AAPM任务组263指南保持一致,以增强图像描述,使用了来自40个医疗机构的709名肺癌患者和752名前列腺癌患者的数据。该研究在Apache Spark平台上实施了多种ML算法,如朴素贝叶斯、随机森林、梯度提升树、多层感知器和支持向量机。创建了与骨骼解剖相关的指标作为附加向量,并且奇异值分解(SVD)促进了改进的学习过程, resulting in a 0.1% error margin。使用来自大学的50名肺癌和50名前列腺癌患者的数据集进行评估表明,随机森林算法产生了最高性能,肺癌准确率达到98.77%,前列腺癌达到95.06%。所有采用的方法(除朴素贝叶斯外)都达到了90%的准确率水平。当结合临床数据时,多层感知器表现出更好的结果,并且骨骼解剖特征的检测提高了测量准确性,肺癌达到95%,前列腺癌达到91%。对60万个PET簇的分析导致这种区分达到了令人称赞的90%诊断准确性。在各种癌症中,肿瘤浸润淋巴细胞(TILs)指示对免疫检查点治疗的反应,导致A. Klauschen及其同事探索了量化TILs的自动化方法。文章涵盖了分割和直接分类方法,强调了依赖于有限输入数据的传统技术所带来的挑战。直接方法常常与输入图像大小作斗争,因为先进的神经网络通常需要300×300像素的图像,而整个幻灯片图像(WSIs)可以大到10,000×10,000像素。研究了替代方案,如限制围绕单个细胞的帧,使用Fast-R-CNN和Faster R-CNN等方法。然而,解读预测结果对专家来说仍然是一个挑战。采用了各种技术,包括引导反向传播和敏感性分析,以澄清结果,作者强调了在将ML应用于癌症诊断时明确标准和评估标准的必要性。虽然人工智能在核医学成像中的应用仍处于早期阶段,但将先进的成像系统整合到临床实践中存在巨大潜力。正在开发各种技术以利用人工智能中的图像分析来更好地分割肿瘤正电子发射断层扫描(PET)并量化全身肿瘤体积。在核心脏病学中,ML对于确定手术需求至关重要。PET和SPECT成像结合CT扫描改善了结果。一项对713名患者的研究确定了33个关键参数,以开发一个预测模型,该模型在预测手术干预需求方面匹配或超越了人类操作员。实施ML允许纳入许多人们难以有效监控的变量。AI和ML也积极用于管理良性疾病。此外,人工智能识别了各种临床因素和治疗选择之间的联系。AI执行个体处理的能力对于劳动密集型活动(如彻底图像重建)至关重要,这减少了所需指标和同时进行CT扫描的必要性,最终减少了辐射暴露。推进ML用于癌症诊断的一个重要焦点是通过评估与转移相关的参数、研究体积变化、研究体内肿瘤、处理动态PET数据和自动化图像降噪来区分转移性肿瘤。
一项分析评估了各种ML算法。DT算法的关键优势包括快速处理和易于理解,但它需要互斥类和清晰的属性顺序。k-NN算法对于误分类具有鲁棒性,适用于非线性分类。同时,SVM和NN模型有效处理噪声和缺失数据,但它们需要大量的训练和操作时间,并且可能使再训练和结果解读复杂化。这些方法,如肿瘤识别和患者生存预测,用于医疗背景。该研究利用了来自西北医学企业(NM-EDW)的数据,涉及2011年至2017年间接受手术的18岁以上患者。为了预处理数据,去除了语言偏差,并提取了单字和双字。两个模型评估了术后并发症,使用5折交叉验证, resulting in a modest average AUC increase of 0.01。最终预测模型将预测准确性提高了20-25%。最终模型显示出99.3%的惊人敏感性和81.3%的特异性。它还达到了97.9%的阳性预测值(PPV)和92.9%的阴性预测值(NPV), resulting in an overall diagnostic accuracy of 96.4%。这些发现表明,该模型可能在辅助临床决策中发挥重要作用。此外,来自更大的、多机构研究的见解可能增强最可能从抗HER2治疗中获益的患者选择过程。Hsiao-Yu Yang及其同事开发了基于乳腺活检原理的用于乳腺癌预测的ML模型。他们的系统采用传感器阵列通过监测二氧化碳和分析挥发性有机化合物(VOCs)来检测呼出气中的生物标志物,使用Cyranose电子鼻(E-nose)320。该研究将戊烷VOCs确定为乳腺癌的标志物,准确率超过90%。从2016年至2018年收集的899名受试者的数据显示,随机森林(RF)模型具有最高性能,实现了91%的预测准确率和0.99的AUC,阳性预测值和阴性预测值分别为97%。广泛承认,在早期阶段诊断肺癌显著增加了患者康复的机会,并有助于适应社会和职业环境。分析这些初始阶段的代谢组学生物标志物和代谢物模式变化为评估肿瘤发展提供了有价值的方法。它对于区分疾病的不同阶段至关重要。这种分析通常表现出与肺癌特定阶段相对应的 varying 敏感性水平。通常,当在早期诊断中检测到代谢组学生物标志物时,建议进行进一步调查。Ying Xie的研究专注于发现和鉴定有希望作为有效生物标志物的代谢物。基因组异常与骨髓增生异常综合征(MDS)中的形态学异常有关,评估血液和骨髓细胞形态对于理解其机制至关重要。由于各种染色体异常和造血细胞的复杂变化,诊断MDS具有挑战性。将人工智能和ML与生物信息学和基因组数据整合增强了诊断和预后。Y. Nagata等人分析了1,079名MDS患者,通过全外显子组测序识别了1,929个体细胞突变。他们利用ANNOVAR进行数据注释,并将结果与多个突变数据库进行比较。该研究发现常见突变基因,包括TET2、ASXL1和SF3B1,并为低风险患者开发了具有八种亚型的决策树。该方法在检测体细胞突变方面达到了98.7%的准确性。阿尔茨海默病(AD)是一种神经系统疾病,及时识别对于有效干预至关重要。深度学习(DL),特别是卷积神经网络(CNN),被用于涉及图像的自动特征提取任务。一项研究检验了dropout和批量归一化如何影响深度CNN在使用MRI和PET成像检测早期AD阶段的效果。E. Hodneland评估了一种利用三维卷积神经网络(CNN)对子宫内膜癌原发肿瘤进行分割的全自动方法。该技术评估肿瘤体积并达到与放射科医生相似的准确度水平。CNN肿瘤分割的自动化为肿瘤分析创造了新的机会,支持预后标志物的发现和改善肿瘤学中的个性化治疗。对子宫内膜癌患者实施术前MRI提供了关于肿瘤传播的基本信息,这对于制定最佳手术和治疗计划至关重要。此外,广泛的MRI可以揭示肿瘤的影像组学特征,有助于为每位患者定制最有效的治疗策略。在卷积神经网络训练期间,检查了涉及139名患者的数据集,显示专家医生在14%的病例中对原发肿瘤的位置存在 substantial 分歧。使用CNN,我们可以自主提取与肿瘤体积和纹理相关的特征,增强预后精度并促进癌症的个性化治疗选择。结果显示与人类专家相当的结果,经Wilcoxon符号秩检验确认。手动分割肿瘤进行体积和纹理分析是劳动密集型的。E. Hodneland等人说明了二维U-Net卷积网络如何解决肿瘤分割挑战。存在几个可靠的框架来帮助专业人员将DL用于三维医学成像。这种自动分割可以跟踪肿瘤体积在治疗反应中的变化,有益于临床药物研究。此外,在ICC估计中没有发现显著差异,表明网络的表现与放射科医生相似。心血管发展的进步正在创造解决心血管疾病的机会。超声心动图是数据收集的有效方法,适用于DL应用。DL还通过组织学分析帮助病理学家,减少主观误解。R. L. Gullo等人概述了使用ML预测乳腺癌新辅助化疗(NAC)反应的情况,强调了其作为标准治疗的潜力。早期预测对于降低死亡率至关重要,MRI是主要的成像技术。MRI特征,如纹理和形状,对于创建影像组学特征很重要,当与ML结合时,可以对肿瘤变化和患者健康状况进行分类。作者评估了各种ML分类器,在整合临床和MRI数据时实现了0.86的准确度、0.88的敏感性和0.82的特异性。该研究强调了DL,特别是CNN,在增强对NAC的预测反应方面的有效性,实现了87.7%的准确度、95.1%的特异性和73.9%的敏感性。腺癌和鳞状细胞癌(SqCC)的预后生物标志物平衡有利于腺癌,因为对SqCC生物标志物的研究不够严格。对PET/CT特征进行了全面分析,检查了每个病变的PET和CT的1,317个特征。这项研究检查了190名HPV相关口咽鳞状细胞癌患者,使用具有ML的区域进展模型分析来自影像组学和PET/CT特征的预测因素。研究结果表明,构建的ML预测器达到了0.76(0.66–0.81;p=0.01)的中位(四分位距)C指数。
规划癌症治疗是复杂的,因为它需要定制的治疗策略,可能导致不良副作用。它需要一个包括外科医生和放射科医生的协作团队来有效监督患者护理。肿瘤学研究的最近发展正在改变治疗方法,护理分为初始、治愈性、支持性和复发辅助。AI和ML的整合正在展示其在医疗保健中的价值,促进数据分析、增强治疗策略并实现早期检测。图7说明了ML如何通过分析图像用于癌症诊断、预后和治疗。然而,采用这些技术需要熟练的计算机科学家,这使其实施复杂化,因为许多医疗从业者不精通ML。J. Waring等人检查了自动化ML(AutoML)平台,指出它们在处理大型数据集方面的挑战,并使用CIFAR-10评估NAS算法的有效性。精准肿瘤学中的人工智能能够对肿瘤基因组信息进行全面分析,为高级肿瘤测序评估中的可行选择提供重要见解。靶向DNA panel的评估使得预测肿瘤类型成为可能,这有助于专家优化为个体患者定制的治疗方
生物通微信公众号
知名企业招聘