医疗大数据中的关联发现方法:识别药物安全与再利用信号的新策略
【字体:
大
中
小
】
时间:2025年10月07日
来源:Clinical Pharmacology & Therapeutics 5.5
编辑推荐:
本综述系统阐述了关联发现(AD)方法在医疗大数据中识别药物不良反应(ADR)与药物再利用信号的前沿应用。研究基于澳大利亚药品福利计划(PBS)十年处方数据,利用Magnum Opus工具挖掘药物与冠心病(CAD)、2型糖尿病(T2DM)、癫痫的潜在关联,成功验证了已知风险(如抗精神病药致糖尿病)和保护效应(如左旋多巴降低糖尿病风险),并揭示了混杂偏倚(CBI)、互指征(MIC)及反向因果(RC)对结果的影响,为大规模数据驱动的药物警戒与老药新用研究提供了创新方法论框架。
摘要
数据科学方法在医疗大数据中的应用日益增多,特别是在评估药物安全性和有效性方面。关联发现(Association Discovery, AD)作为一种数据挖掘方法,能够在高维数据中识别潜在相关的元素。本研究提出了一种新颖的AD方法在纵向医疗数据中的应用,旨在通过药物使用与临床结局之间的正相关和负相关分别识别药物安全信号和药物再利用信号。研究基于澳大利亚药品福利计划(PBS)2014年至2024年的10%样本数据,该数据包含处方报销记录。使用Magnum Opus关联发现工具,我们识别了多种药物与三种常见慢性疾病(即冠心病、2型糖尿病和癫痫)之间的关联。病例通过指示药物的供应作为疾病代理指标来识别,并与未供应指示药物的对照组进行匹配。药物使用定义为在指示药物供应前一年回溯期内供应的解剖治疗化学(ATC)代码。我们还评估了最多四种药物的组合,并在药物类别的ATC水平上识别了关联。本研究重现了几种已知的药物不良反应和保护性药物效应,同时一些关联可归因于混杂、互指征或反向因果关系。其余关联可能代表先前未表征的药物安全和药物再利用信号,需要进一步验证。我们还讨论了这种关联发现方法与其他类似数据科学方法之间的方法论差异。
研究亮点
数据科学方法已越来越多地应用于医疗大数据中,以评估药物的安全性和有效性。关联发现是一种数据挖掘方法,用于在高维数据中查找潜在相关的元素。
关联发现方法能否在纵向医疗数据中实施,以识别药物安全和药物再利用信号?
我们提出了一种新颖的关联发现方法在纵向处方报销记录中的应用,以分别从药物使用与临床结局之间的正相关和负相关中识别药物安全和药物再利用信号。使用Magnum Opus关联发现工具,我们识别了多种药物与三种常见慢性疾病(即冠心病、2型糖尿病和癫痫)之间的关联。我们重现了几种已知的药物不良反应和保护性药物效应,同时一些关联可归因于混杂、互指征或反向因果关系。
关联发现方法可用于医疗数据中的早期假设生成筛查,以识别药物安全和药物再利用信号。
引言
数据科学方法在医疗大数据中的应用日益增多,以评估药物的安全性和有效性。在药物流行病学中,药物使用和结局的研究得益于大型医疗数据库的可用性和计算能力的指数级提升。在药物警戒中,药物流行病学的子领域专注于检测、评估和预防药物不良反应(ADE),机器学习技术已越来越多地用于识别ADE,通常使用自发的药物不良反应(ADR)报告。近年来,药物警戒已从被动依赖ADR报告扩展到利用大型纵向医疗数据库进行主动药物安全监测。序列对称分析(SSA)最初开发为一种使用纵向医疗数据评估特定ADE的有效方法,后来被调整为一种无假设方法以检测未知和未怀疑的安全信号。SSA涉及识别事件发生顺序中的不对称性;不对称可能暗示事件之间的潜在因果关系。另一种数据科学方法,树状扫描统计(TBSS),被应用于纵向医疗数据中以挖掘药物和疫苗的安全信号。TBSS涉及在树状层次结构中进行扫描统计,使其非常适合无假设筛查。在药物再利用的药物流行病学子领域中,兴趣在于识别使用现有市场药物治疗其他医疗状况的机会。与药物安全信号相反,药物再利用工作涉及使用大数据检测药物的新型保护或治疗效果。SSA和TBSS最近也被应用于纵向医疗数据中以识别和评估药物再利用信号。
核心数据科学方法之一是关联发现(AD),一种数据挖掘方法,用于查找高维数据中相互关联的元素。AD通过查找具有高共现概率的数据元素来识别关联,同时满足用户预先指定的与分析目标相关的任何规则。Webb等人率先在AD方法中关注统计稳健性,即使用技术控制1型错误风险并最小化识别虚假关联的风险。此外,还强调了基于关联强度的关联有用性。AD最初应用于市场篮子分析,随后在生物信息学、药理学和药物警戒等广泛领域中使用。AD已被探索为一种有效的数据科学方法,使用自发病例报告识别新型药物安全信号,以及使用纵向医疗数据。迄今为止,AD在识别药物再利用信号方面的应用有限。
本研究提出了一种新颖的AD方法在纵向医疗数据中的应用,以识别药物安全和药物再利用信号。在这项无假设筛查研究中,正相关(即药物使用与临床结局风险增加相关)可能表示潜在危害并信号潜在ADE。相反,负相关(即药物使用与结局风险降低相关)可能暗示保护效应并信号潜在药物再利用机会。
材料与方法
澳大利亚药品福利计划(PBS)是一个国家单一支付方计划,为公民、永久居民和符合条件的外国访客提供药物覆盖。PBS覆盖了澳大利亚大约75%的处方药物。我们使用了10% PBS样本,该样本包含居住在澳大利亚的PBS合格人群随机10%样本的所有PBS补贴处方报销记录。使用了2013年1月1日至2024年2月29日期间10% PBS样本的所有可用数据。然而,由于处方数据记录在PBS中可能存在延迟,接近2024年2月29日的数据可能不完整。PBS 10%样本在此期间包含3,502,433人的324,967,484条处方报销记录。数据包括患者和报销记录。患者记录包括人口统计信息,包括患者识别号、性别、出生年份和死亡年份(如果已故)。每条报销记录代表个人被供应PBS补贴处方药的实例,使用患者识别号与患者记录链接。药物由PBS项目代码标识。PBS项目代码映射到解剖治疗化学(ATC)代码。ATC分类系统基于解剖、治疗和化学组在层次系统中对药物进行分类。此外,每条报销记录包含供应地点(即州或领地)和个人的优惠状态。优惠状态授予有资格获得政府福利的个人,如养老金领取者和低收入者,并为PBS补贴药物提供额外补贴。
访问10% PBS样本由澳大利亚服务部提供。所有记录均以去标识形式提供,所有报销记录的供应日期对每个个体随机调整最多±3个月。数据的预处理在附录S1中描述。本研究由莫纳什大学人类研究伦理委员会批准(22877)。分析申请由澳大利亚服务部外部请求评估委员会批准并备注手稿(RMS3897)。
我们提出了一种基于AD的无监督机器学习方法,使用Magnum Opus AD工具(现并入BigML机器学习平台作为AD工具)识别多种药物与特定关注医疗状况(临床结局)之间的正相关和负相关。图1总结了该方法的流程。
我们选择了澳大利亚三种常见慢性医疗状况作为本研究的示例临床结局,即冠心病(CAD)、2型糖尿病(T2DM)和癫痫。由于PBS处方报销记录缺乏使用指征和诊断信息,我们基于常用治疗相应医疗状况的处方药物供应来推断这些医疗状况的诊断,即指示药物。图2总结了医疗状况、纳入标准和指示药物。我们将T2DM队列限制为仅男性,因为二甲双胍(指示药物)常用于女性的多囊卵巢综合征。我们指定首次供应指示药物的月份为诊断月份。
对于每个临床结局,病例定义为在2014年1月1日或之后首次供应指示药物的人。选择该日期是因为许多廉价处方药物,包括用于三种关注临床结局的药物,在2013年之前未记录在PBS数据中。所有病例必须在病例诊断月份前的一年前瞻期内至少有一条报销记录才能纳入研究。
对于每个病例,从一个直到数据期结束从未供应指示药物的人中选择一个对照组。对于T2DM队列 specifically,对照组患者还必须未供应任何其他降糖药物(ATC代码以“A10”开头)。每个病例使用以下标准随机匹配到同一索引月份的一个对照组,无替换:相同出生年份和性别;与病例类似,对照组必须在病例诊断月份前的一年前瞻期内至少有一条报销记录;对照组最近的处方报销记录(在病例诊断月份前)必须与病例在同一州或领地并使用相同的优惠状态;对照组在病例诊断年份期间或之前不得有记录的死亡。未匹配的病例从分析中排除。
使用诊断月份前一年的前瞻期来识别每个个体诊断前的药物使用。药物使用在ATC分类的第4和第5级别提取,例如“C10AA”用于HMG-CoA还原酶抑制剂(即他汀类药物),“C10AA05”用于阿托伐他汀。
使用Magnum Opus AD工具识别前瞻期内供应的药物(ATC分类第5级别)与临床结局之间的关联。对每个临床结局分别进行分析。我们允许最多四种独特ATC代码的组合。理论上,如果具有该状况(即病例)的人比预期更多被供应该药物,则药物与该状况呈正相关。类似地,如果比预期更少的病例被供应该药物,则药物呈负相关。理论和计算在附录S2中描述。给定巨大的搜索空间,在评估药物(或药物组合)与临床结局之间的关联时,存在高的1型错误风险,需要多重检验校正。仅报告统计上稳健的关联——这意味着应用Webb方法的Bonferroni校正后关联显著。在按提升度(即关联相对幅度)对识别的关联进行排名后,前50个正相关和负相关被优先进一步调查。然后由两位作者GT和SW独立将这些关联分类到一个或多个这些广泛类别中。类别修改自Hallas等人的一项假设筛查研究:ADR——已知药物不良反应;PRO——已知药物保护效应;CBI——由药物指征混杂的关联;MIC——用于互指征或原因的
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号