评估英国生物银行队列中胰腺导管腺癌风险的性别差异:激素暴露与生殖因素的全面解析
【字体:
大
中
小
】
时间:2025年09月28日
来源:United European Gastroenterology Journal 6.7
编辑推荐:
本综述基于UK Biobank大样本前瞻性数据,系统探讨了性别差异背景下激素暴露与生殖因素对胰腺导管腺癌(PDAC)风险的影响。研究发现口服避孕药(OC)显著增加女性风险(OR=2.17),而足月妊娠(FTP)次数增多具有保护作用(OR=0.83)。男性中性激素结合球蛋白(SHBG)水平升高与风险降低显著相关(OR=0.98)。研究创新性采用机器学习模型(XGBoost)和SHAP解释器,揭示年龄、多基因风险评分(PRS)、绝经年龄等为关键预测因子,为PDAC的性别特异性预防策略提供了重要依据。
胰腺导管腺癌(PDAC)预计到2030年将成为癌症相关死亡的第二大常见原因。该疾病在诊断时通常无明显症状,且多在晚期才被发现,这限制了治疗选择。已知的风险因素包括吸烟、饮酒、胰腺炎、糖尿病和压力等。此外,约30个单核苷酸多态性(SNP)已被确定为易感位点。然而,还存在明显的性别倾向性,欧洲男性PDAC发病率略高于女性(每10万人中20.2例对19.0例)。这种差异可能归因于已知风险因素的暴露不均,但这仅部分解释了观察到的发病率差异。因此,有人假设不同的激素因素和生殖史可能导致这种不平衡。
雌激素和孕激素受体(ERα、ERβ和PR)在PDAC组织中异质性表达,并以可能促进肿瘤或抑制肿瘤的方式影响细胞生长。动物模型研究表明,雌激素抑制癌前胰腺病变的生长。相反,低雌激素水平会促进更高水平的促炎细胞因子,这可能增加恶性转化的风险。
许多研究调查了激素暴露,包括口服避孕药(OC)的使用、激素替代疗法(HRT)、生殖因素、更年期、雌激素生物合成和信号传导相关基因的遗传变异的作用以及游离睾酮和性激素结合球蛋白(SHBG)。这些研究报告了异质性的结果;例如,HRT对PDAC风险的影响不一致,有的研究显示风险降低,有的显示风险增加,有的则显示无变化。初潮年龄较大与风险增加和无风险均有关联,而更年期较晚既与风险增加相关,也与风险降低相关。这些不一致的发现可能源于各研究的平均样本量较小。
此外,尚未对男性特异性因素(如第二性征和秃顶模式)进行研究。而且,遗传学与激素暴露之间的相互作用或其联合效应也从未被研究过。
因此,本研究旨在全面考察男性和女性中激素暴露和生殖因素在PDAC易感性中的作用。此外,还研究了使用多基因风险评分(PRS)的遗传背景与激素暴露的潜在相互作用。最后,采用可解释人工智能(XAI)方法来测试暴露组合的预测潜力。该研究在前瞻性英国生物银行(UKBB)队列中进行,分析了816例PDAC病例(390名女性和426名男性)和302,645名对照(161,049名女性和141,596名男性)。
本研究在UKBB队列中进行,这是一项大型前瞻性研究,招募了2006年至2013年间英国的超过500,000名年龄在37-73岁的参与者。通过触摸屏问卷、物理测量和生物样本分析在基线和随访评估中收集了生活方式和健康数据。研究方案的详细信息在其他地方提供。所有参与者均提供了书面知情同意书。UK生物银行研究获得了西北多中心研究伦理委员会(MREC)的批准。参与者数据由UK生物银行直接提供(项目ID:66591)。
从最初的502,420名个体中,仅使用UKBB字段21000选择了欧洲人,鉴于非欧洲人数量较少。具体来说,包括白人、英国人、爱尔兰人或其他白人背景的个体,总计472,622名受试者。
PDAC病例从UK癌症登记处(字段40006)中选出,其中诊断根据国际疾病分类第十版(ICD-10)进行编码。ICD代码从第十版更新到第十一版,遵循世界卫生组织提供的映射。使用代码2C10来识别患有PDAC的受试者。此外,将“癌症组织学”(字段40011)和“癌症行为”(字段40012)与“癌症类型-ICD10”(字段40006)结合使用。除了字段40006,UKBB还包括两个额外的字段来识别癌症患者:自我报告的肿瘤(字段20001)和住院诊断(字段41270)。所有在这三个字段(40006、20001、41270)中没有任何癌症诊断的个体被归类为对照。
应用这些标准,研究包括816例PDAC病例(390名女性和426名男性)和302,645名对照(161,049名女性和141,596名男性)。
选择了20个暴露组变量,分为四类(OC使用、HRT使用、生殖健康和历史,以及男性身体发育)。此外,还分析了游离睾酮、SHBG和雌二醇的浓度。表1提供了所用变量的完整列表及其类别和测量单位,支持信息S1:补充数字内容1和补充数字内容2提供了选择过程的完整描述。
将所有已知与PDAC易感性相关的SNP(通过全基因组关联研究(GWAS)和/或候选基因/区域方法识别)汇总成一个加权的PRS。支持信息S1:补充数字内容3提供了多态性的完整列表。PRS分别针对女性和男性独立计算。对于每个受试者,得分计算为每个位点携带的风险等位基因的总和,每个等位基因乘以该SNP在文献中报告的相应β系数(对数优势比)(参见支持信息S1:补充数字内容3)。具体来说,对于给定的SNP,风险等位基因的数量(0、1或2)乘以其报告的效果大小,然后跨所有位点求和乘积。根据对照人群中的分布,将得分分为三分位数。在分析中,第一个三分位数用作参考类别。
分别对男性和女性进行多变量无条件逻辑回归,计算优势比(OR)、95%置信区间(95% CI)和p值。分析包括20个暴露变量(逐一)、PRS以及年龄、胰腺炎、糖尿病、吸烟、饮酒和体重指数(BMI)作为调整因素。为了解释多重测试,统计显著性的阈值为p = 0.05/30(23个性别特异性变量、PRS、年龄、5个非性别特异性变量)= 1.67 × 10?3。此外,还进行了分层分析,考虑了OC的成分(联合OC和仅孕激素OC)和HRT(仅雌激素和联合HRT/仅孕激素)。所有分析均使用RStudio软件版本4.2.2(R统计计算基金会—https://www.R-project.org/)进行。
对于G × E分析,PRS用作连续变量,而环境暴露变量以与主要关联分析相同的格式使用。使用了两个无条件逻辑回归模型,每个模型都包含一个交互项。第一个仅包括年龄作为调整因素,而第二个包括年龄和5个非性别特异性变量,如支持信息S1:补充数字内容1中所述。
构建了四个数据集,针对每个性别,一个数据集包括性别特异性变量、年龄和PRS,而另一个数据集包括非性别特异性变量。所有缺失率 > 5%的变量和所有至少有一个缺失值的个体都被排除在数据集之外。使用scikit-learn库中的OneHotEncoder函数为分类变量创建二进制表示。鉴于病例和对照数量不平衡,使用imbalanced-learn库中的RandomUnderSampler函数对对照进行随机欠采样。为了防止由于这种不平衡导致的过拟合,随机选择了一组对照,每个病例对应两个对照,保持变量内的初始值分布。最后,将数据集分为训练集(80%)和测试集(20%)。为了减轻变异性,随机欠采样过程执行了1000次,评估每个创建的数据集上的模型,并选择最佳模型。
采用极端梯度提升(XGBoost)算法,因为它在表格数据上表现出色。XGBoost模型的详细描述报告在支持信息S1:补充数字内容1、4和5中。为了评估预测模型,使用了以下指标:准确度、敏感性、特异性和受试者工作特征(ROC)曲线下面积(AUC)。为了识别模型中最贡献的变量,使用了SHapley Additive exPlanation(SHAP)。使用TreeExplainer函数计算SHAP值,并在单个摘要图中绘制。
在女性中,在p < 0.05水平上观察到9个关联,其中4个在Bonferroni校正后仍然显著(曾经/从未使用OC、OC使用年数、OC开始使用年龄、怀孕次数[FTP])。在男性中,观察到两个关联,秃顶类型3和血液SHBG浓度,后者在Bonferroni校正后仍然显著(表2)。
观察到服用OC药片的强烈效应,服用OC的女性风险是未服用者的两倍(OR = 2.17, 95% CI: 1.70–2.80, p = 8.16 × 10?10)。此外,风险随暴露年数的增加而增加(OR = 1.04, 95% CI: 1.03–1.05, p = 3.92 × 10?12),并且随开始使用时间的提前而增加:三分位数3(23–55岁)与三分位数1(5–19岁)相比:OR = 13.42, 95% CI: 8.76–20.25, p = 4.51 × 10?33。最后,对OC使用的分层分析显示,使用的口服避孕药(OC)类型与PDAC易感性相关。具体来说,与不使用OC相比,使用仅孕激素药片与发生PDAC的风险增加相关(OR = 48.45 [95% CI: 13.05–179.9], p = 6.71 × 10?9)。
此外,FTP次数与发生PDAC的风险降低相关。具体来说,每个FTP风险降低20%(OR = 0.83 [95% CI: 0.76–0.90], p = 2.60 × 10?5)。此外,拥有超过三个孩子的女性发生PDAC的概率大约是无孩子女性的一半(OR = 0.51, 95% CI: 0.37–0.69, p = 1.89 × 10?5)。此外,较早开始服用HRT(16–45岁)的女性比较晚开始(51至69岁)的女性具有更高的PDAC风险(OR = 1.70, 95% CI: 1.14–2.54, p = 9.23 × 10?3)。最后,初潮年龄较大与发生PDAC的风险降低相关(OR = 0.93, 95% CI: 0.87–0.99, p = 3.21 × 10?2);然而,这些关联在Bonferroni校正后不再显著。
对于男性,观察到较高浓度的SHBG与PDAC风险降低之间存在统计学上显著的关联(OR = 0.98, 95% CI: 0.97–0.98, p = 7.38 × 10?10)。秃顶模式3(头顶脱发)名义上与发生PDAC的风险降低相关(OR = 0.75, 95% CI: 0.58–0.98, p = 3.47 × 10?2)。所有分析的结果报告在表2中,并在图1中总结。
PRS分析显示,处于第三三分位数的女性受试者与处于最低三分位数的女性相比,发生PDAC的风险增加了两倍以上(OR = 2.16, 95% CI: 1.59–2.97, p = 2.16 × 10?6)。在男性中也观察到可比较的趋势(OR = 1.96, 95% CI: 1.48–2.62, p = 3.21 × 10?6)。当前吸烟者比从不吸烟者显示出更高的发生PDAC风险(女性:OR = 2.73, 95% CI: 1.98–3.70, p = 2.58 × 10?10;男性:OR = 2.25, 95% CI: 1.68–2.99, p = 2.44 × 10?8)。此外,患有胰腺炎的个体比没有胰腺炎的个体具有更高的发生PDAC风险(女性:OR = 4.23, 95% CI: 2.04–7.79, p = 2.11 × 10?5;男性:OR = 7.14, 95% CI: 4.36–11.15, p = 1.83 × 10?16)。糖尿病与男性发生PDAC的风险降低相关(OR = 0.51, 95% CI: 0.34–0.73, p = 3.90 × 10?8),但只有31名患有糖尿病的男性受试者发生了PDAC。肥胖男性比正常体重男性显示出更高的发生PDAC风险(OR = 1.45, 95% CI: 1.11–1.92, p = 7.84 × 10?3)。对于女性,观察到相同的趋势,但未达到统计学显著性。性别非特异性因素的结果报告在支持信息S1:补充数字内容6中。
所有分析均未显示p值低于Bonferroni校正阈值,最佳观察结果在PRS和HRT使用之间(ORinteraction = 1.50, 95% CI: 1.01–2.23, p = 4.56 × 10?2),但在Bonferroni校正后不再显著。所有G×E分析的结果呈现在支持信息S1:补充数字内容7中。进行了异质性分析以进一步探索这些关联,但未观察到统计学上显著的关联(支持信息S1:补充数字内容8)。
预测模型在女性和男性中均表现出色。在女性中,当考虑生殖因素、激素相关特征、PRS和年龄时,全局准确度为0.89,敏感性为0.90,特异性为0.86。在男性中,数值稍差,全局准确度为0.88,敏感性为0.81,特异性为0.92。女性和男性的AUC分别为0.95和0.92。不出所料,SHAP将年龄确定为两性最重要的特征。在女性中,模型将游离睾酮、SHBG、PRS、绝经年龄和OC使用确定为年龄之后最重要的特征。对于男性,SHBG、游离睾酮、PRS和秃顶类型3在重要性中排名第二至第五。结果如图2所示。包括非性别特异性因素对考虑各种指标和SHAP值的模型没有影响(支持信息S1:补充数字内容9)。
女性性类固醇激素对发生PDAC风险的潜在影响是相当大辩论的主题(支持信息S1:补充内容10)。然而,男性类固醇激素对PDAC易感性的作用尚未研究。此外,激素相关变量可能与个体遗传背景存在的相互作用尚待研究。因此,本研究首次评估了女性和男性激素活动对发生PDAC风险的影响,并使用标准流行病学方法和XAI算法评估了它们与遗传变异的相互作用。
结果清楚地显示了OC使用与发生PDAC风险增加之间的关联,在分层分析中比较使用者和非使用者。考虑OC使用的持续时间(暴露年数)和开始使用的年龄,关联更强且更具统计学显著性。关于这个主题有大量文献;然而,结果极其异质,大多数研究显示没有关联。差异可能归因于包含的受试者数量相对有限,大多数研究平均约有200例PDAC病例。另一个可能的解释可能是所用调整变量的异质性以及研究设计(回顾性与前瞻性)。OC被IARC列为第1类致癌物,并且OC的使用,尤其是在较年轻时,令人信服地与乳腺癌、肝癌和子宫内膜癌的发展和进展相关。尽管成分可能不同,药片中存在两种主要激素是孕酮和雌二醇,它们具有多种功能和不良影响,例如刺激细胞增殖和血管生成。此外,它们通过调节葡萄糖转运蛋白参与葡萄糖摄取,并可能引起短暂性糖尿病。
此外,至少有一个FTP的女性显示风险降低1.59倍(OR = 0.63),而与无FTP的女性相比,拥有超过三个FTP的女性风险降低1.96倍(OR = 0.51)。我们的结果与最新文献一致,包括Zhu及其同事的一项荟萃分析,可能是因为FTP在所有纳入荟萃分析的研究中使用统一的方法学方法进行分析。我们的结果还突出了胰腺癌和乳腺癌之间的另一个相似之处,对于乳腺癌,FTP次数是一个明显的保护因素。怀孕会引起胰岛素敏感性的持久改变、脂质代谢和炎症通路,这可能提供针对代谢紊乱(如2型糖尿病和肥胖)的保护——两者都是PDAC的既定风险因素。这些生理适应可能部分解释了观察到的产次与PDAC风险之间的负相关。
此外,HRT使用显示出与非显著趋势相关的较高发生PDAC风险,取决于HRT开始使用的时间,与最近在超过200万女性中进行的荟萃分析一致。毫不奇怪,这些关联也反映了乳腺癌的情况。
最后,有趣的是,尽管个体上游离睾酮和SHBG水平与PDAC风险无关,但在ML模型中它们位列最重要的特征之中。这两种激素与PDAC风险的非显著关联已有报道。在与男性激素活动相关的变量分析中,SHBG水平升高与发生PDAC的风险降低相关。这种关联也反映了在乳腺癌中观察到的情况;然而,激素浓度与年龄密切相关,因此这个结果可能被它混淆,因为已经观察到SHBG随着年龄增长而趋于下降。
此外,秃顶模式3(头顶脱发)显示出发生PDAC的风险降低;然而,该关联在经过多重测试校正后不再具有统计学显著性。这个结果很有趣,因为它以前从未被报道过,而且因为秃顶模式3是由睾酮水平不平衡引起的。已经观察到雄激素受体(AR)在PDAC组织中表达。本质上,AR作为一种配体依赖性转录因子,从而诱导与细胞增殖有关的基因的转录。因此,低睾酮水平可以减轻这种机制。因此,尽管该关联未达到经过多重测试校正的统计阈值,但值得进一步研究。
非性别特异性因素在女性和男性之间显示出相似的关联模式。尽管糖尿病是PDAC的已知风险因素,但它在女性和男性中显示出保护作用。然而,后一项分析是在少量个体中进行的(只有16名女性和31名患有糖尿病的男性个体发生了PDAC),因此可能由于随机统计波动或可能是生存偏倚的影响。
XGBoost显示了使用性别特异性因素、年龄和PRS构建的模型非常好的预测能力,而添加胰腺炎、糖尿病、吸烟、饮酒和BMI并没有实质性改善模型。最后,SHAP即使将年龄确定为最重要的特征,也突出了PRS和几个性别特异性变量对预测的良好贡献。具体来说,绝经年龄、初潮年龄、是否有流产史和口服避孕药的使用。
这项研究有几个优势。首先,它采用了816例PDAC病例(390名女性和426名男性)的人群,代表了关于PDAC中生殖因素和激素史的最大样本之一。值得注意的是,之前关于这个主题的大多数研究的样本量在52到367例之间。其次,它采用了一种综合方法,使用了23个暴露变量,包括3个与男性发育因素相关的变量,这些变量以前尚未在PDAC易感性中进行过检查。另一个新颖之处是使用可解释的机器学习模型,这些模型以前从未尝试用于PDAC风险预测中的这些变量,并且显示出优异的指标。
我们意识到潜在的局限性。例如,尽管这项研究是迄今为止对妇科、生殖和激素相关变量最全面的检查之一,但它没有包括激素水平的重复测量,从而限制了对时间激素变异的评估。此外,并非所有相关因素,如母乳喂养和OC及HRT的剂量,都包含在分析中,因为UKBB中没有这些数据,或者拥有这些数据的受试者非常少。此外,UKBB不包含PDAC家族史的数据,这可能是一个混淆因素,模型无法对其进行调整。此外,XGBoost的结果基于有限数量的受试者;因此,效果可能被高估。另一个限制是,本研究的结果完全基于白人英国人群,因此可能无法推广到其他种族背景。最后,这项研究可能存在潜在的回忆偏倚,由于自我报告的数据;然而,考虑到UKBB的前瞻性性质,影响可能有限。
结果显示激素浓度对女性PDAC风险有明显的关联。我们观察到与怀孕次数、初潮年龄较晚和绝经年龄较晚相关的风险持续降低。此外,由于长期使用OC和HRT导致的外源性激素暴露增加与疾病风险增加相关。因此,我们的结果表明,个体暴露于哪种激素比激素负荷的整体增加或减少更重要。此外,多变量分析显示糖尿病、胰腺炎、吸烟、饮酒和BMI在两性中具有非常相似的效果,而XAI模型在添加这些变量时其性能没有实质性变化,这表明既定风险因素在女性和男性中扮演相似的角色,并且性别特异性因素与遗传学一起有助于PDAC的发展。这些发现强调需要在独立人群中验证我们的机器学习模型,以确认性别特异性变量在PDAC中的预测相关性。此外,需要进一步的研究来调查女性和男性激素在PDAC发展中的功能。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号