
-
生物通官微
陪你抓住生命科技
跳动的脉搏
应对肝细胞癌临床试验中的非比例风险:从III期研究看统计策略与临床意义
【字体: 大 中 小 】 时间:2025年09月24日 来源:Journal of Hepatology 33
编辑推荐:
本文针对肝细胞癌(HCC)免疫治疗中非比例风险(NPH)导致的期中分析与最终分析结果不一致的问题,系统评估了20项III期随机对照试验(RCT),提出基于MaxCombo检验、限制平均生存时间(RMST)和分段风险比(pHR)的整合分析框架,为NPH情境下的试验设计与结果解读提供方法学支持。
肝细胞癌(Hepatocellular Carcinoma, HCC)是全球癌症死亡的主要原因之一,尤其在晚期患者中预后较差。近年来,免疫检查点抑制剂(Immune Checkpoint Inhibitors, ICI)的应用显著改变了HCC的治疗格局,不仅用于晚期系统治疗,还逐步拓展至辅助治疗和联合局部区域治疗领域。然而,随着免疫治疗临床试验的广泛开展,一个关键的统计学问题逐渐浮现:非比例风险(Non-Proportional Hazards, NPH)。NPH指的是治疗组和对照组之间的风险比(Hazard Ratio, HR)随时间发生变化,不再满足Cox比例风险模型的基本假设。这种现象在免疫治疗中尤为常见,可能表现为疗效随时间递减(diminishing effects)、疗效延迟出现(delayed effects)或风险函数交叉(crossing hazards)等模式。
NPH的存在对临床试验的解读,尤其是期中分析(Interim Analysis, IA)的决策,提出了严峻挑战。一个著名的例子是IMbrave050试验,该研究在辅助治疗背景下评估了阿替利珠单抗联合贝伐珠单抗(atezolizumab-bevacizumab)对比主动监测在高危HCC患者术后或消融后的疗效。其期中分析显示复发自由生存(Recurrence-Free Survival, RFS)显著改善(HR: 0.72),结果一度被写入国际临床指南。然而,随着随访时间延长和最终分析数据的成熟,疗效优势未能持续(HR: 0.90),导致推荐被撤回。这一反转凸显了在存在NPH的情况下,仅依赖传统log-rank检验和Cox模型风险比可能得出不可靠的结论,进而影响试验的停止决策和临床实践。
为解决这一问题,由Ezequiel Mauro、Tiago de Castro、Josep M. Llovet等学者牵头,多个国际中心合作开展了一项方法学聚焦的研究,系统评估了NPH在HCC关键III期试验中的影响,并提出了一套针对NPH的统计策略与期中分析成熟度标准。该研究发表于《Journal of Hepatology》。
为开展本项研究,团队选取了2008年至2024年9月间发表的20项HCC领域关键III期随机试验,覆盖了辅助治疗、经动脉化疗栓塞(TACE)联合治疗、一线及二线系统治疗等多个场景。研究采用的主要技术方法包括:1) 通过WebPlotDigitizer软件和reconstructKM程序包,从已发表的Kaplan-Meier(KM)生存曲线中逆向重建个体水平的时间-事件数据;2) 使用Grambsch-Therneau(G-T)检验评估比例风险假设,识别存在NPH的试验;3) 对于存在NPH的试验,采用MaxCombo检验(结合Fleming-Harrington加权log-rank检验)评估组间差异的显著性;4) 利用限制平均生存时间(Restricted Mean Survival Time, RMST)及其比率(rRMST)或差值(dRMST)量化疗效大小;5) 计算分段风险比(piecewise HR, pHR)以描述疗效随时间的变化模式。
研究结果
评估非比例风险
在纳入的20项III期试验中,G-T检验识别出4项(20%)存在NPH,且均涉及免疫治疗方案。这4项试验呈现出三种NPH模式:IMbrave050和LEAP-012显示为疗效随时间递减;HIMALAYA试验表现为延迟治疗效应;CheckMate 9DW则出现风险函数交叉。
NPH情境下的疗效评估
在存在NPH的试验中,研究者比较了log-rank检验、MaxCombo检验和RMST分析的结果。值得注意的是,尽管log-rank检验在NPH存在时效力可能降低,但所有4项试验在这三种检验中均显示出一致的统计学显著性。MaxCombo检验因其综合了多个加权检验,在捕捉不同NPH模式下的治疗效应时表现出更高的灵敏度。
疗效大小与提议的期中分析策略
针对不同的NPH模式,研究者结合具体试验进行了深入分析。
疗效递减模式(IMbrave050与LEAP-012):IMbrave050的期中分析(中位随访17.4个月,事件数未达预期)显示RFS显著改善,但最终分析(中位随访35.1个月,事件数达49%)时疗效消失。RMST和pHR分析明确揭示了早期获益(12个月内pHR: 0.59)与后期效益消失(12个月后pHR: 1.12)的模式。相比之下,LEAP-012的期中分析满足了提议的成熟度标准(随访时间超对照组预期中位PFS的两倍,事件数>60%),其显著疗效(MaxCombo p<0.001)和持续的RMST获益得到了确认。
延迟效应模式(HIMALAYA):在HIMALAYA试验的最终分析中,STRIDE方案(度伐利尤单抗+ tremelimumab)相较于索拉非尼,展示了典型的延迟效应。RMST分析显示,在12个月时差异不显著(rRMST: 1.04, p=0.13),但在24个月和36个月时显著获益(rRMST: 1.09和1.15)。pHR在12个月前后也从0.87转变为0.72,证实了疗效的延迟性。
风险交叉模式(CheckMate 9DW):该试验的期中分析显示了风险函数的交叉。早期(12个月内)对照组(仑伐替尼/索拉非尼)似乎更具优势(rRMST: 0.95),但后期优势发生逆转,36个月时试验组(纳武利尤单抗+伊匹木单抗)显示出显著获益(rRMST: 1.12)。pHR在12个月前后从1.09变为0.66,清晰地刻画了这种动态变化。
基于以上分析,研究者提出一个框架性策略:当怀疑或确认存在NPH时,为确保期中分析的稳健性,应满足两个成熟度标准之一:1)随访时间至少达到对照组主要终点预期中位时间的两倍;或2)事件发生数达到总随机人群的60%或以上。达到该标准后,应使用MaxCombo检验评估显著性,并辅以RMST和pHR来量化疗效大小和时变模式。
讨论与结论
本研究系统揭示了NPH在HCC免疫治疗III期试验中的普遍性(20%)及其对结果解读,尤其是期中分析决策的重大影响。IMbrave050试验的经历是一个典型案例,其早期阳性结果与后期数据成熟后结论的转变,深刻说明了在NPH存在时,依据不成熟数据提前终止试验的风险。
研究强调,传统的log-rank检验和Cox模型HR在NPH情境下可能不足以捕捉真实的治疗效应,甚至可能产生误导。MaxCombo检验、RMST和pHR作为互补的统计工具,为评估显著性、量化疗效大小和描述疗效随时间变化提供了更可靠的方法。更重要的是,分析时机的选择至关重要。本研究提议的成熟度标准(双重随访时间或高事件数)为未来试验在设计期中分析时提供了一个实用的参考框架,旨在避免因数据不成熟而做出过早或错误的决策。
此外,研究成果对临床实践和指南制定也具有启示意义。疗效的时变模式(如延迟效应或早期递减)直接影响对治疗方案的临床价值评估。例如,具有延迟效应的治疗可能需要更长的随访才能显现其优势,而早期显效但快速递减的方案其长期获益则需要审慎评估。因此,在报道和解读临床试验结果时,除了报告HR,还应充分展示RMST、 landmark分析以及生存曲线形态,以便更全面地理解治疗效益。
总之,该项研究为肿瘤临床试验,尤其是免疫治疗时代的试验设计与分析树立了重要的方法论标志。通过采纳针对NPH的稳健统计策略与成熟度标准,未来研究能够更准确地捕获免疫治疗的独特疗效动力学,确保结论的可靠性,最终为HCC患者的管理提供更坚实、更经得起时间考验的循证依据。
生物通微信公众号
知名企业招聘