疫苗效力研究中ICH E9(R1)附录的实践应用:基于人乳头瘤病毒(HPV)试验的假设性与主分层策略比较

【字体: 时间:2025年10月04日 来源:Journal of Biopharmaceutical Statistics 1.2

编辑推荐:

  本综述深入探讨了ICH E9(R1)附录在疫苗效力(Vaccine Efficacy, VE)研究中的实施策略,重点比较了处理干预事件(Intercurrent Events, IEs)的假设性策略(Hypothetical Strategy)与主分层策略(Principal Stratum Strategy)。文章通过对一项人乳头瘤病毒(Human Papillomavirus, HPV)三期临床试验的回顾性分析,系统阐述了两种估计量(Estimands)的统计学定义、识别假设及估计方法(如OM、IPW和PS),为疫苗临床试验的设计与因果推断(Causal Inference)提供了方法学框架与实践指导。

  

引言

过去数十年间,疫苗效力评估的主要兴趣点大多集中于试验中符合方案要求(符合方案分析)的参与者所观察到的效应。ICH E9(R1)附录提供了一个结构化框架,用以构建感兴趣的临床问题并将其形式化为估计量。本文旨在将估计量框架回顾性地应用于一项人乳头瘤病毒(HPV)三期试验,该试验最初是在符合方案集上估算疫苗效力的。研究聚焦于处理干预事件存在的两种策略:假设性策略和主分层策略。文章阐述了这两种估计量的解释、其估计方法以及基本可识别性假设的阐明。最后,利用HPV应用的结果,为疫苗效力研究中ICH E9(R1)附录的实施提出了总体考量。
ICH E9(R1)附录将ICH E9扩展到与临床试验中的估计量和敏感性分析相关的统计原则。该附录强调了估计目标(即估计量)与相应的估计分析方法之间保持一致的重要性。ICH E9(R1)指出,与研究目标相关的处理效应应在估计量框架中制定,并明确五个属性,包括人群、处理、终点、人群水平汇总以及处理干预事件(IEs)的策略。干预事件是随机化后可能影响处理效应评估的事件(例如,停止分配的处理)。后者是估计量定义的一个关键方面,要求研究团队预见试验期间可能发生的干预事件并计划如何应对。
近年来,关于估计量框架的一般原则和实施已有广泛研究。最近由Michiels等人和Fu等人发表的两篇论文特别讨论了ICH E9(R1)估计量框架在疫苗试验中的应用。本文同样关注疫苗试验,其问题涉及疫苗效力。
在许可之前,临床开发计划的兴趣点一直在于疫苗接种降低接种者感染目标疾病或感染概率的能力,即疫苗效力。传统的疫苗效力试验通常采用固定设计且样本量相当大。疫苗效力试验最常见的主要目的是评估疫苗在“依从”人群中的“生物”效力,其中“依从”大致意味着完成免疫(接种所有疫苗剂量)且没有重大的方案偏离。传统上,通过评估符合方案集(即依从参与者的亚组)上的处理效应来估计生物效应。然而,由于该分析是在随机化后定义的子集上进行的,它可能容易受到选择偏倚的影响。尽管疫苗效力试验通常的高依从率应能减轻选择偏倚,但符合方案估计量的估计量及其 underlying 假设尚未正式定义。因果推断的概念和方法已被证明有助于正确定义估计量及相应的识别假设。所有这些方面都是实施ICH E9(R1)估计量框架的关键。
本文利用因果推断方法来形式化两个估计量。第一个估计量是在完全遵守研究预指定方案的情况下本应观察到的平均因果效应。这与使用ICH E9(R1)中的假设性策略处理干预事件的存在相一致。第二个估计量使用主分层策略处理干预事件,这对应于使用主分层框架,并以一个参与者亚组(即一个主分层)中的平均因果效应为目标。通常,临床兴趣主要面向一个在所有处理水平上都依从试验方案的参与者层。Fu等人在疫苗研究中采用主分层作为定义和估计“生物效力”的主要策略。在此,我们使用假设性和主分层策略回顾性分析了一项HPV疫苗效力试验,该试验最初进行了未调整的符合方案分析。除了形式化相应的估计量外,我们还阐明了识别它们所需的假设,提出了一致的估计量,并在特定应用中评估了它们的适当性。

统计方法

基本设置

我们在因果推断的潜在结果框架下进行,该框架与ICH E9(R1)附录中的估计量框架密切相关。
我们考虑一项两组平行组随机对照疫苗效力研究,共有n名参与者。对于每位参与者i,令Ai ∈ {0, 1}为观察到的随机分配状态,Ai = 1表示分配到疫苗组,Ai = 0表示分配到对照组。我们观察到一個终点Yi和一个包含K个基线协变量的向量Xi ≡ (Xi,1, …, Xi,K)′。我们还观察到一个二元指标Ri,表示一个或多个干预事件的发生,Ri = 1表示发生了干预事件,否则为0。
我们首先定义潜在结果,并维持标准的稳定单元处理值假设。由于R是一个分配后变量,对于每位参与者i,它有两个潜在值,Ri0和Ri1,分别对应参与者被分配到对照组和研究疫苗时的潜在干预事件发生情况。对于终点,令Yia, Ria为参与者i在治疗a及其在该治疗下的干预事件发生情况Ria下的潜在结果。Yia, Ria=r的一个特殊情况是,其中潜在干预事件发生Ria被固定为一个给定值r ∈ {0, 1},而不是研究中观察到的实际干预事件值Ri。为简洁起见,后文将缩写Yia ≡ Yia, Ria和Yia,r ≡ Yia, Ria=r。假设1(ii)也称为一致性假设,在我们的上下文中,针对分析策略有不同的具体形式。具体来说,对于主分层策略,我们假设如果Ai = a(对于a ∈ {0, 1}),则Ri = Ria且Yi = Yia。对于假设性策略,我们假设一个更强版本的一致性:假设2(强一致性)。如果Ai = a且Ri = r,则Yi = Yia,r,对于a ∈ {0, 1}和r ∈ {0, 1}。这意味着在治疗a和干预事件发生r之后,只有一种可能的结果。假设2意味着干预事件发生对终点的影响是恒定的,无论参与者经历了哪种干预事件。
因果效应被定义为在目标人群中共同单元集下,不同处理水平的潜在结果的比较。例如,标准意向性治疗(ITT)效应是E(Yi1)与E(Yi0)的比较。在下一节中,我们将定义针对ICH E9(R1)中两种干预事件策略的其他估计量。
在整个论文中,我们假设处理组是可交换的。换句话说,处理分配独立于所有潜在结果和参与者特征。在大样本中,这通过处理的随机化得到保证。我们将其形式化为假设3(可交换性)。对于每位参与者i,Ai ? (Ria, Yia, Yia,r),对于a ∈ {0, 1}和r ∈ {0, 1}。

假设性策略

估计量与识别
假设性策略针对的是一个假设情景下的处理效应,即所有试验参与者都不会经历干预事件,定义为μ1,0和μ0,0的比较,其中μa,r ≡ E(Yia,r),即比较在两种处理下参与者未经历干预事件的潜在结果的期望值。估计量可以是差值尺度或比值尺度。在我们的案例研究中,由于主要终点(感染状态)是二元的,且兴趣在于疫苗效力,我们将假设性估计量定义为VEH = 1 ? (μ1,0 / μ0,0)。
为了识别μa,0,进而识别假设性估计量VEH,除了假设1-3外,还需要额外的假设。我们做出以下一对假设来非参数地识别μa,0
假设4(条件可交换性)。对于每位参与者i,Ri ? Yia,0 | Ai, Xi。假设4保持了干预事件发生与潜在结果在给定疫苗分配和协变量条件下的独立性。换句话说,所有干预事件发生和结果的共同原因的信息都已收集在X中。
假设5(正值性)。每位参与者经历干预事件的概率远离0和1:0 < p(Ri = 1 | Ai, Xi) < 1 ?i。
在假设1-5下,因果参数μa,0,因此估计量VEH可通过结果建模或加权非参数地识别。
估计
基于识别公式,我们提出两种类型的估计量:结果建模(OM)和逆概率加权(IPW)。
在结果建模(OM)方法中,我们假设一个终点模型p(Yi | Ai = a, Ri, Xi),例如,为每个疫苗组拟合一个广义线性模型,基于此我们为每位参与者i估算一对潜在结果(Yi1,0, Yi0,0),记为(?i1,0, ?i0,0)。然后,μa,0的OM估计量是这些估算值的平均。然后对比μ1,0和μ0,0的估计量以获得感兴趣假设性估计量的估计。可以使用非参数bootstrap计算标准误。
IPW方法旨在通过排除经历过干预事件的参与者并根据他们给定处理分配和协变量下未经历干预事件的概率的倒数对其他人的结果进行加权,来创建一个伪人群。IPW包括两个步骤:
  1. 1.
    估计权重。对于每位参与者i,权重为wi = 1 / p(Ri = 0 | Ai, Xi)。我们为p(Ri = 1 | Ai, Xi)拟合两个逻辑回归模型(每组一个),以获得估计概率p?(Ri = 1 | Ai, Xi),基于此我们估计权重:?i = 1 / (1 ? p?(Ri = 1 | Ai, Xi))。
  2. 2.
    将估计的权重代入μa,0的估计量中,例如Hájek估计量。然后对比μ1,0和μ0,0的估计量以获得感兴趣假设性估计量的估计。类似地,我们可以使用非参数bootstrap计算标准误,在每次重新抽样中重新拟合逻辑模型并重新计算权重以考虑权重估计的不确定性。
只要它们相应的模型被正确指定,OM和IPW估计量就是一致的。一方面,IPW估计量避免了对结果的直接建模(这可能难以指定),但容易受到极端权重的影响,从而可能增加方差。另一方面,具有正确结果模型的OM估计量通常比IPW估计量具有更小的方差,但如果结果模型指定错误,可能会导致大的偏差。第三种方法是用结果模型增广IPW估计量,也称为双重稳健(DR)估计量,因为如果权重模型或结果模型中的任何一个(但不一定两者)被正确指定,它们就是一致的。在本文中,我们专注于OM和IPW方法,并将DR估计量留待未来研究。

主分层策略

估计量与识别
主分层是基于参与者在两种处理分配下的潜在干预事件发生情况将其交叉分类到潜在亚组中。具体来说,参与者i的主分层定义为Gi ≡ (Ri0, Ri1),后文将缩写为r0r1,其中Ri0 = r0且Ri1 = r1。对于二元的干预事件发生,有四个可能的主分层:Gi ∈ {11, 01, 10, 00}。我们表示μa,g ≡ E(Yia | Gi = g)为层g的平均潜在结果Yia。主分层策略以层G=00中的因果效应为目标,即无论处理分配如何都不会经历干预事件的参与者层。因此,目标估计量是μ1,00和μ0,00的比较。这个估计量,在一些额外的假设下,可以解释为效力。在我们的案例研究中,由于结果是二元的,我们在比值尺度上定义主分层估计量为VEPS = 1 ? (μ1,00 / μ0,00)。
除了假设1和3之外,还需要额外的假设来非参数地识别主分层估计量。主分层中有两种主要的识别策略。我们将采用基于主可忽略性的方法。
假设6(主可忽略性):Gi ? (Yi0, Yi1) | Xi ?i = 1, …, n。主可忽略性假设潜在结果在给定观察到的基线协变量条件下独立于主分层成员身份。换句话说,它假设在主分层成员身份和感兴趣终点的潜在结果之间没有未测量的混杂因素。这意味着E(Yia | Gi = g, Xi) = E[Yia | Xi] 对于a ∈ {0, 1}和g ∈ {11, 01, 10, 00},这反过来又识别了μa,g。然而,个体的主分层成员身份仍然未知,这使得层G=00的因果效应只能部分识别。在主可忽略性下的点识别需要额外的假设,例如单调性(即一个或多个层不存在)。然而,单调性在我们的案例研究中不可信。在下一节中,我们讨论基于模型的估计方法。
估计
为了估计μa,00,我们在主可忽略性下使用多重插补方法。该方法需要指定两组模型:一组用于潜在干预事件发生,另一组用于给定协变量的潜在结果。估计算法如下。在第m次迭代中(m=1,...,M):
  1. 1.
    使用分配至1-a的参与者,拟合一个关于Ri1-a给定Xi的回归模型。然后,使用该模型预测分配至a的参与者的反事实干预事件发生情况,记为R?i,m1-Ai
  2. 2.
    基于RiAi(观察到的)和R?i,m1-Ai(估算的)的联合值推导主分层成员身份?i,m
  3. 3.
    使用分配至1-a的参与者,拟合一个关于Yi1-a给定Xi的回归模型。然后,使用该模型预测分配至a的参与者的反事实终点值。对a∈{0,1}执行此步骤为每位参与者提供了反事实终点值的插补,记为?i,m1-Ai
    最后,μa,00的估计量是这些估算值的平均。我们将VEPS的估计量记为VêPS = 1 ? (μ?1,00 / μ?0,00)。
执行多重插补是为了考虑主分层成员身份和结果插补中的不确定性。为了计算标准误,我们使用bootstrap。具体来说,我们生成B个bootstrap样本,如前所述,并为每个样本重复上述多重插补过程的所有步骤。最后,在为每个bootstrap样本推导出感兴趣的主分层估计量的估计后,我们使用它们来推导标准误。

应用

研究概述

人乳头瘤病毒(HPV)是最常见的生殖道病毒感染,是导致男性和女性一系列疾病的原因。在女性中,持续感染特定HPV类型可能导致癌前病变,如果不治疗,可能会进展为宫颈癌。目前注册的用于HPV相关疾病的疫苗旨在预防性使用。当在一个人第一次性接触之前接种时最有效,那时他们可能暴露于HPV。美国疾病控制与预防中心(CDC)建议所有男孩和女孩在11或12岁时接种HPV疫苗,尽管最早可以在9岁接种。
我们通过回顾性分析一项大型随机、对照、双盲三期试验的数据来评估前面章节中描述的方法学,该试验评估了Cervarix(GSK)疫苗的效力。来自亚洲、欧洲、拉丁美洲和北美的约18,000名15-25岁女性被随机分配接受三剂研究疫苗或对照(甲型肝炎病毒[HAV]疫苗),接种计划为0、1、6个月,随机化比例为1:1。该研究的主要目的是评估疫苗在预防与HPV-16或HPV-18宫颈感染相关的2级或3级宫颈上皮内瘤变、宫颈原位腺癌或浸润性宫颈癌(CIN2+)方面的效力。在原始研究中,获得了所有参与者或其父母或两者的书面知情同意或 assent。方案和其他材料得到了独立伦理委员会或机构审查委员会的批准。

ICH E9(R1)估计量的属性

根据ICH E9(R1)附录,我们通过指定以下属性回顾性定义HPV试验中的估计量:处理、人群、终点、干预事件和人群水平汇总。我们将采用假设性和主分层策略来处理干预事件的发生。请注意,人群属性根据采用的策略而变化。
  1. 1.
    处理:按照0、1、6个月计划接种三剂Cervarix(研究疫苗)和按照相同计划接种三剂Havrix疫苗(对照)。
  2. 2.
    人群:
    • ?
      对于假设性策略:15至25岁的女性。
    • ?
      对于主分层策略:无论处理分配如何都不会经历干预事件的15至25岁女性层。
  3. 3.
    终点:组织病理学证实的CIN2+(即宫颈上皮内瘤变2级、3级、原位腺癌或浸润性宫颈癌)的发生,与在第3剂接种后至研究结束(第48个月)访视期间检测到的宫颈组织标本病变部分中的HPV-16或HPV-18宫颈感染相关。
  4. 4.
    干预事件:[描述] 禁止按方案接种疫苗;研究中心或GSK安全部门破盲;研究疫苗剂量未按方案接种;使用方案禁止的任何药物;方案禁止的潜在医疗状况;不遵守疫苗接种计划(包括错误和未知日期);在完成疫苗接种计划之前发生HPV-16或HPV-18感染事件。[处理策略]。假设性策略将用于处理上面列出的所有干预事件;这等同于针对列出的干预事件均未发生的假设情景下的处理效应。主分层策略也将用于处理上面列出的所有干预事件。
  5. 5.
    人群水平汇总:疫苗效力,定义为1减去研究疫苗组终点发生风险与对照组之比。

描述性统计

与临床研究报告中报告的主要分析一致,我们的分析侧重于基线时HPV-16或HPV-18 DNA阴性和血清阴性的受试者。因此,我们的样本由16,171名参与者组成,其中8068人被随机分配到研究疫苗,8103人被分配到对照组。收集了丰富的参与者基线特征,包括人口统计学(例如,年龄、国家、吸烟状况)和医疗史(例如,使用激素避孕药、性传播疾病史)。由于随机化和大样本量,这些特征在处理组之间很好地平衡。
试验期间发生了一些我们决定不归类为干预事件的方案偏离。其中一些发生在随机化之前(例如,有两个宫颈,或有HAV疫苗接种史),可以被同化为违反入选标准。其他发生在随机化之后,但被认为与疫苗无关;例如,参与者是否怀孕合理地不受她随机分配的疫苗的影响。总体而言,1.69%的样本(16,171名参与者中的274名)至少有一个我们不归类为干预事件的方案偏离。表1显示了一些关于这些方案偏离分布的汇总统计数据,以及按疫苗组的标准化均值差(SMDs)。 conventionally,SMD大于0.1被认为是相关的。
如表所示,SMD远低于此阈值,表明这些方案偏离在疫苗组之间几乎完全平衡。因此,我们选择从分析中排除至少有一个方案偏离但没有干预事件的参与者,假设这些方案偏离是完全随机发生的。这导致排除了25名受试者,研究组15名,对照组10名。因此,我们的分析集大小为n=16,146,其中研究组8,053名参与者,对照组8,093名。
这些参与者中的大多数没有干预事件,处理组的分布相似;具体而言,对照组和研究组中分别有91.40%和91.84%的参与者没有任何干预事件。这是疫苗研究的一个特点,其中干预事件的发生通常很少见。表2描述了研究中干预事件的分布。
表2中报告的SMD表明,干预事件在疫苗组之间通常是良好平衡的。最大的SMD出现在完成疫苗接种计划之前发生的HPV-16或HPV-18感染事件。事实上,经历此干预事件的16名参与者都在对照组。因此,研究疫苗可能从第一剂开始就提供了一些保护——尽管按疫苗组的SMD低于0.10阈值。
总体而言,在16,146名参与者中仅观察到141例病例(占我们分析集的0.87%),研究组6例,对照组135例。在整个分析集上估算疫苗效力,忽略干预事件的发生,对应于执行ITT分析。在我们的应用中,执行未调整的ITT分析得出95.5%的估计疫苗效力(95%置信区间[CI]:[91.1%;98.7%]),这表明被分配到研究疫苗具有强烈的积极效果,无论参与者是否经历任何干预事件。如果不引入进一步的假设,它不能真正解释为疫苗“生物”效力的度量。另一方面,符合方案分析的结果可能可以解释为效力度量,但可能容易受到选择偏倚的影响(在具有干预事件和没有干预事件的参与者之间,在基线特征方面观察到了一些差异——参见附录A中的表A1)。在我们的应用中,在符合方案子集上估计的疫苗效力为95.0%(95% CI:[89.9%;98.5%])。在第3.5节中,我们还将展示针对假设性和主分层估计量的分析结果,其中干预事件的发生得到了适当处理。

参数模型

为了使用第2节中描述的OM、IPW和PS方法,我们使用以下基线协变量指定参数模型:年龄(岁);宫颈细胞学异常的二元指标;国家(中美洲、东亚、北美洲、北欧、大洋洲、东南亚、南美洲、南欧、西欧);妇科衣原体感染的二元指标和性传播疾病史的二元指标;性伴侣数量(少于三个,至少三个);种族(亚洲人、黑人、西班牙裔、其他、白人/高加索人);接受过激素避孕药的二元指标;最后,吸烟状况(吸烟者、非吸烟者)的二元指标。请注意,以丰富的协变量集为条件是支持条件可交换性和主可忽略性(假设4和6)假设的基础。
一些基线协变量的信息对于少数试验参与者是缺失的。我们没有从分析中排除具有缺失协变量值的参与者,而是选择采用缺失指示符方法。对于每个具有缺失值的协变量,我们首先执行单次插补;然后,我们用缺失指示符增广模型,即一个二元回归变量,如果对于给定的试验参与者,协变量值被观察到则取值为一,如果它是插补的则取值为零。这些缺失指示符与其相应的部分观察到的协变量的相互作用有效地将所有缺失值插补为零;然而,使用的估计量对插补值的选择是不变的。
我们将上面列出的协变量(以及缺失指示符,在适当情况下)作为主要效应包含在我们为(i) Yia,r(当使用OM方法时),(ii) 权重wi(当使用IPW时),和(iii) Ria和Yia(当使用PS时)指定的logit模型中。这些模型的数学形式化可以在附录B中找到。我们使用贝叶斯方法拟合模型,如arm R包中所实现。我们为模型参数指定弱信息柯西先验分布。对于截距,我们将先验尺度设置为10。对于回归系数,我们将其设置为2.5。

结果

假设性策略的结果报告在附录A的表A2中。我们可以看到OM和IPW估计导致非常相似的结果:使用OM时估计的疫苗效力为95.0%(95% CI:[90.2%;98.5%]),使用IPW时为94.8%(95%置信区间:[89.5%;98.4%])。正如预期,OM方法导致比IPW更窄的CI。然而,差异很小,可能是由于具有干预事件的参与者比例非常低。
PS
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号