《Schizophrenia》:Enabling FAIR data stewardship in complex international multi-site studies: Data Operations for the Accelerating Medicines Partnership? Schizophrenia Program
编辑推荐:
在复杂国际多中心研究中,敏感健康信息数据共享面临难题。研究人员开展 “加速药物合作精神分裂症(AMP? SCZ)项目”,建立数据运营生态系统,实现数据高质量收集、处理与共享,为多中心精神健康研究提供借鉴。
在精神健康研究领域,对于临床高风险(CHR)综合征的研究一直是热点。当前,虽然大量研究致力于描述 CHR 综合征并识别精神病发作的预测因素,但由于症状和结果的显著异质性,精准估计个体的疾病转化风险及其他不良后果仍困难重重,其中一个重要原因就是缺乏大规模数据集以支持精准医学方法的应用。为了改善现有的风险早期界定方法,预测进展为精神病及其他精神疾病的可能性,加速针对精神病风险人群的早期有效治疗的开发,由多个国际研究团队参与的 “加速药物合作精神分裂症(AMP? SCZ)项目” 应运而生。该项目的研究成果发表在《Schizophrenia》杂志上。
在这项研究中,研究人员采用了多种关键技术方法。数据采集方面,针对不同类型的数据使用了多种电子数据采集系统,如 REDCap、RPMS 等。数据管理上,运用 Loch Ness 等系统进行数据聚合、去标识化处理。在质量控制方面,对不同数据类型建立了自动化和人工检查相结合的多层面质量控制流程。此外,通过 NIMH 数据档案(NDA)平台实现数据的存储与共享。
研究结果如下:
- 数据规模:AMP? SCZ 是 CHR 人群中最大的前瞻性队列研究。截至 2024 年 2 月已收集近 15TB 原始数据,预计样本量完成后将收集超 100TB。单个参与者可能有多达 11,324 个变量的表单数据,还有多种类型的检查数据,如脑电图(EEG)、磁共振成像(MRI)等,其综合原始数据量可达约 50GB12。
- 数据采集与处理速度:数据采集除 IQ 测试外均实时进行,多种原始数据文件在采集后 24 小时内上传,数据每 6 小时聚合并传输到 DPACC。处理和质量控制(QC)管道每天运行,自动 QC 反馈在 48 小时内提供。但 EEG 和 MRI 数据的视觉检查存在一定延迟,部分数据等待检查时间超过 28 天34。
- 数据类型多样性:研究涵盖多领域数据,包括临床评估、EEG、MRI、神经认知、体液生物标志物、数字健康技术和视听(A/V)记录等,数据类型丰富多样,从结构化到非结构化数据均有涉及5。
- 数据传播:已进行多次数据发布,2023 年 11 月首次发布包含 430 名受试者筛查和基线数据,2024 年 6 月更新数据集涵盖 1,048 名受试者多方面数据,涉及多种数据类型,为研究提供了丰富资源6。
研究结论与讨论部分指出,该项目建立的创新框架能够有效管理来自两个研究网络的异构多模态数据,遵循 NDA 最佳实践实现数据协调统一,并通过开放科学方法进行数据共享,最大化研究影响力。同时,持续的数据流和信息反馈机制确保了数据质量。然而,项目也面临一些挑战,如不同研究网络方案协调困难、信息系统监测复杂、可视化工具设计耗时等。尽管如此,该项目为未来相关研究提供了宝贵经验,其数据运营生态系统的建立,为多中心精神健康研究中的数据管理和共享树立了典范,有助于推动精准医学在精神疾病领域的发展,对加速有效治疗方案的开发具有重要意义。