妇科癌症预测模型的统计评估:方法学质量与临床转化挑战
【字体:
大
中
小
】
时间:2025年09月28日
来源:International Journal of Gynecological Cancer 4.7
编辑推荐:
本研究针对2020-2025年间妇科癌症预测模型普遍存在的方法学缺陷,系统评估了192项研究。结果显示,高达96.9%的模型存在高偏倚风险(PROBAST工具),主要问题包括分析领域缺陷(89.1%)、参与者选择偏倚(85.9%)、外部验证严重不足(62.5%未进行)及统计学家参与度极低(2.6%)。研究强调亟需遵循TRIPOD报告标准、加强多中心外部验证和统计专业协作,对提升模型临床适用性具有重要意义。
在全球女性健康领域,卵巢癌、宫颈癌和子宫内膜癌这三大妇科恶性肿瘤构成了重大健康挑战。其中卵巢癌作为女性生殖系统第三大常见恶性肿瘤,其死亡率高居榜首,约70%病例在确诊时已进展至晚期(FIGO III-IV期);宫颈癌位居全球女性癌症发病率第四位,2022年新增病例约66万例;而子宫内膜癌的发病率和死亡率近年来呈上升趋势,2020年全球新发病例达41.7万例,已成为女性第六大常见癌症。尽管测序技术的发展推动了妇科癌症研究的显著进步,但在预测患者预后和评估治疗反应方面仍存在迫切挑战。
预测模型通过整合多个预测因子或协变量,来估计个体存在特定结局(诊断预测模型)或在规定时间内发生特定结局(预后预测模型)的可能性或风险。在妇科肿瘤学领域,这类模型正被积极探索作为支持个体化治疗计划的潜在工具。然而,建模技术的未经批判应用可能导致模型与数据集拟合不佳,产生欠拟合或过拟合问题,更严重的是,可能影响对新受试者预测的准确性。这也可能是很少有模型被纳入指南并实际应用于实践的关键原因之一。
为了提升妇科癌症预测模型的质量并促进其临床转化,对已发表的预测模型研究进行总结评估,并为未来研究提供统计学建议显得至关重要。《International Journal of Gynecological Cancer》发表的研究论文《Prediction Models for Gynecological Cancers: An Assessment from a Statistical Perspective》正是针对这一需求展开的系统性评估。
研究人员采用系统性方法检索了PubMed数据库中2020年1月至2025年4月的文献,设计了针对三种目标癌症类型(宫颈癌、卵巢癌、子宫内膜癌)的独立检索策略。研究纳入标准包括至少涉及模型开发、验证或更新的研究,且模型结局与妇科癌症患者的临床结局相关。排除标准包括综述文章、方法学文章、相关性研究、药理学研究或动物模型研究等。数据提取遵循TRIPOD声明,使用预先设计的数据提取表由两名独立评审员完成。方法学质量使用预测模型偏倚风险评估工具(PROBAST)进行评估,该工具从四个领域(参与者选择、预测因子、结局、分析)评估偏倚风险和适用性。统计分析包括描述性分析和组间差异比较,使用R 4.4.2执行。
研究结果显示,从696条初始记录中,经过多阶段筛选,最终纳入了192项研究进行分析,包括68项宫颈癌研究、59项子宫内膜癌研究和65项卵巢癌研究。大多数研究在亚洲进行(88.5%),而来自欧洲、美洲和大洋洲的研究较少。从时间上看,2023-2025年期间发表的研究数量(141项)显著多于2020-2022年(51项)。在模型临床应用方面,大多数(65.1%)为预后预测,较少部分(34.9%)专注于诊断预测。
PROBAST评估结果显示,在参与者选择方面,159项研究被认为存在高偏倚风险,主要归因于使用公共数据库或历史队列研究。在预测因子方面,130项研究存在高偏倚风险,主要原因是使用多个公共数据集而未考虑批次效应。在结局方面,85项研究存在高偏倚风险。分析领域是四个领域中高偏倚风险研究数量最多的(172项),可能源于分析方法的复杂性和统计计算中可能存在的错误。总体而言,仅6项研究被分类为低偏倚风险,其余186项研究呈现高风险。这凸显了在宫颈癌、子宫内膜癌和卵巢癌预测模型开发中普遍存在的方法学缺陷。
时间趋势分析显示,2023-2025年期间基线描述报告比例(59.7%)较2020-2022年(43.1%)有显著改善。然而,样本量、结局定义、统计方法、内部验证和校准等方面均未显示显著改善。外部验证实践有所增加,缺乏外部验证的研究比例从72.5%降至56.7%,但仍有相当比例的研究未纳入外部验证。
按期刊JCR分区的分析表明,Q1至Q3-Q4分区中提供基线描述的研究比例逐渐增加(47.6%至70.8%)。统计学家参与的比例在所有分区都很低(Q1为4.9%,Q2为1.5%,Q3-Q4为0%)。结局在所有分区中主要以生存为主,分类结局较少见。
按癌症类型分层的亚组分析显示,AUC值存在明显变异:训练集中卵巢癌为0.79,宫颈癌为0.83,子宫内膜癌为0.84;相应验证AUC分别为0.74、0.78和0.82。按临床应用分类时,诊断模型的平均训练AUC为0.85,验证AUC为0.81;而预后模型的值分别为0.80和0.76。尽管诊断模型显示出略高的AUC,但诊断模型与预后模型之间的差异相对较小,表明模型目的对预测性能的影响可能小于癌症特异性因素。
研究结论表明,当前妇科癌症预测模型研究普遍存在方法学问题和高偏倚风险,严重限制了其临床效用。迫切需要遵循TRIPOD报告标准、优先进行多中心外部验证、整合统计学家参与以及减少对单一公共数据集的依赖,这对于开发可靠且适用的模型至关重要。
讨论部分强调,虽然近年来妇科癌症预测模型研究数量显著增加,但建模程序的标准化和几个关键的统计学方面尚未得到充分解决。研究识别出的问题包括队列信息不明确、样本量不足、模型呈现不充分、验证不足以及统计学家参与缺乏等。与已发表文献的比较表明,超过一半的研究仅使用公共数据库构建预测模型,这种做法可能会增加模型中的偏倚风险。此外,单纯依赖公共数据库可能导致其他潜在问题,包括无法充分捕捉真实世界场景的多样性和复杂性、缺乏对数据质量和一致性的控制,以及包含的变量可能与特定研究目标不完全一致等。
机器学习技术在预测模型构建中的应用近年来有所增加,但在此领域完全扎根仍有相当长的路要走。机器学习的一个基本挑战是需要足够大的样本量,例如,可能需要每个变量至少200个事件(EPV)才能获得稳定可靠的结果。外部验证的缺乏是当前预测模型研究的一个特点,本研究中仅有13项研究包含超过三个外部验证数据集。外部验证对于评估模型的普遍性和临床适用性至关重要,能提供对模型在不同背景下稳定性和可移植性的更严格测试。
一个特别值得注意的发现是统计学家在预测模型开发中的参与有限。研究仅发现5项研究包含了统计学家的参与和指导,且这些研究仅发表在JCR排名前两个四分位(Q1和Q2)的期刊上。相反,在排名较低四分位(Q3和Q4)期刊发表的研究中没有观察到这种参与。这种差异凸显了研究 landscape 中的一个关键差距,因为统计学家的专业知识对于确保预测模型的方法学严谨性和有效性至关重要。
研究的优势在于首次对针对此特定人群的预测模型的现有研究提供了全面概述。然而,研究也存在一些局限性,包括文献检索仅限于PubMed数据库、限制于科学引文索引(SCI)期刊可能引入选择偏倚、仅限于英文出版物以及基于作者隶属关系定义"统计学家参与"可能低估贡献者等。
这项研究对实践和未来研究具有重要意义,揭示了现有妇科癌症预测模型研究存在报告不足和方法学应用欠佳的特点。这种现象在各种期刊中持续存在,无论其各自的影响因子或排名如何。迫切需要采用更严格的评审标准,并在未来研究工作中纳入彻底的统计学考虑。预计统计方法的持续发展和统计学家参与度的提高将显著增强该领域临床研究的广度和深度。整合统计专业知识更深入地到模型开发中至关重要, rigorous 的方法学、透明的报告和与统计学家的加强合作将有助于提高妇科肿瘤学预测模型的可靠性和临床适用性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号