
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:基于机器学习对临床数据聚类的三阴性乳腺癌患者总生存期和无复发生存期预测
【字体: 大 中 小 】 时间:2025年09月21日 来源:Revista de Senología y Patología Mamaria 0.3
编辑推荐:
本综述推荐一项利用k-prototypes算法对4,808例三阴性乳腺癌(TNBC)患者进行聚类分析的研究。研究通过多变量分析和Cox比例风险模型,识别出4个具有显著预后差异的聚类群,其中高危集群(集群3)的死亡率(42.3%;HR=1.94)和复发率(54.25%;HR=1.68)最高,并证实PIK3CA(HR=1.535)与TP53(HR=1.180)突变与不良预后相关。该模型为TNBC的个性化治疗提供了重要的临床分层工具。
摘要
三阴性乳腺癌(TNBC)占乳腺癌病例的15-20%,其特征是缺乏雌激素受体(ER)、孕激素受体(PR)和人表皮生长因子受体2(HER2)表达。这种分子谱使其区别于其他亚型,并与侵袭性肿瘤生物学、频繁复发和较差预后相关。治疗选择主要局限于细胞毒性化疗。整合临床和分子数据并通过机器学习算法进行分析,为改善临床结果预测和个性化管理该疾病提供了机会。
引言
TNBC是一种临床上重要的乳腺癌亚型,因其缺乏靶向治疗受体而构成重大挑战。其侵略性行为和异质性使得基于传统临床病理因素的预后预测变得复杂。机器学习方法,特别是无监督聚类技术,提供了通过利用混合数据类型来识别具有不同结果的不同患者亚群的潜力。本研究旨在开发预测模型,以估计TNBC患者的总生存期(OS)和无复发生存期(RFS)。
方法
研究设计
进行了一项回顾性队列研究,以评估选定的人口统计学、临床特征和生物标志物与TNBC患者OS和RFS的关联。该设计允许利用历史数据来识别该人群中的预测因素和临床结果。
研究人群
研究纳入了2012年至2024年间经组织病理学检查确诊的18岁以上TNBC患者。选择标准确保了队列的同质性和数据质量,以进行可靠的机器学习分析。
聚类分析
使用k-prototypes算法对患者进行聚类,该算法能够有效处理混合数据(分类和数值变量)。分析了人口统计学、临床变量、生物标志物和临床结果。进行多变量分析和Cox比例风险模型来评估聚类与OS和RFS结果之间的关联。
结果
该研究共包括4,808名TNBC患者。中位年龄为51岁(P25%-P75%:42-59岁),中位体重指数(BMI)为26.2(23.03-29.57)。查尔森合并症指数的中位得分为4(IQR:3-5)。关于功能状态,81.8%的患者在卡诺夫斯基功能状态(KPS)指数中得分最高(100),而38.91%的患者东部肿瘤协作组(ECOG)评分为0,反映了良好的功能状态。
大多数患者接受了肿瘤切除术(26.98%)或单纯乳房切除术(26.98%),其次是改良根治性乳房切除术(18.49%)和保乳手术(16.44%)。关于肿瘤特征,55.91%的肿瘤分级为3级,大多数肿瘤分期为T2(48.98%),淋巴结状态为N0(56.41%)。最常见的组织学类型是浸润性导管癌(76.31%)。
确定了四个患者聚类。高风险组(聚类3)表现出最高的死亡率(42.3%;风险比[HR] = 1.94;95%置信区间[CI]:1.63-2.30)和复发率(54.25%;HR = 1.68;95% CI:1.45-1.95),而聚类0显示出最好的结果(死亡率22.51%)。多变量分析确定了几种与较差OS和RFS独立相关的因素。PIK3CA突变(HR = 1.535;p = 0.001)和TP53突变(HR = 1.180;p = 0.023)与不良结果显著相关。
讨论
本研究使用无监督机器学习算法来识别TNBC患者的同质亚组,并评估其与OS和RFS的关联。生成的聚类能够根据临床风险和对患者进行分层,结果显示四个已识别聚类之间的死亡率和复发存在显著差异。高风险聚类(聚类2和3)表现出高负荷的 adverse 临床病理因素,包括更高的肿瘤分级、晚期分期和特定分子改变的存在,如PIK3CA和TP53突变。
这些发现强化了基于聚类的分层在预测结果和指导TNBC个性化干预方面的效用。通过识别具有 distinct 预后特征的患者亚群,临床医生可以就治疗强度、随访计划和潜在 targeted 策略做出更明智的决策,即使在缺乏传统靶点的情况下。
结论
本研究的结果表明,无监督算法,特别是k-prototypes方法,能够将TNBC患者有效分层为临床差异化的亚组,这对预测OS和RFS具有关键意义。四个聚类的识别,其死亡率和复发率存在显著差异,强调了该疾病的异质性和个性化方法的必要性。特别是,聚类3代表了需要更积极管理和密切监测的高风险人群。整合机器学习驱动的分层到临床决策中有望改善TNBC患者的预后和资源分配。未来的研究应侧重于在独立队列中验证这些模型,并探索其他分子特征以进一步完善风险预测。
生物通微信公众号
知名企业招聘