Pennsieve:构建神经科学数据管理的协作平台,推动FAIR原则下的开放科学研究

《Scientific Data》:Pennsieve: A Collaborative Platform for Translational Neuroscience and Beyond

【字体: 时间:2025年11月20日 来源:Scientific Data 6.9

编辑推荐:

  本文推荐研究人员针对神经科学数据爆炸性增长带来的管理碎片化、跨模态整合困难等挑战,开发了名为Pennsieve的云端开源科学数据管理平台。该平台通过集成数据可视化、处理及同行评审数据发布工具,支持多模态数据管理和FAIR(可发现、可访问、可互操作、可重用)原则,已服务全球80余个研究团队,存储125TB科学数据,构建了可持续的协作研究生态系统。

  
随着神经科学研究进入大数据时代,脑成像、电生理、电子病历以及免疫遗传信息等多模态数据呈指数级增长,神经科学家们面临着前所未有的数据管理挑战。当前神经科学数据生态高度碎片化,往往被组织成专有格式和特定模态的档案库,彼此之间缺乏通信能力。这种数据孤岛现象严重阻碍了大规模研究工作的开展,导致数据资源利用率低下,科学发现潜力大幅削弱。与此同时,美国国立卫生研究院(NIH)和欧盟推行的数据共享政策加速了神经科学领域从封闭到开放科学的重大转型,这使得研究人员对标准化数据管理平台的需求变得尤为迫切。
在这一背景下,由宾夕法尼亚大学研究人员领导的团队在《Scientific Data》上发表了关于Pennsieve平台的研究论文。Pennsieve是一个开源、基于云端的科学数据管理平台,专门设计用于支持可发现、可访问、可互操作、可重用(FAIR)的数据共享。该平台集成了数据可视化、处理和同行评审数据发布工具,促进协作研究和高品质数据集优化,既支持云端部署也支持本地部署。
研究团队采用微服务架构在亚马逊云服务(AWS)上部署平台,通过弹性容器服务(ECS)和负载均衡器实现高可用性,利用无服务器架构(AWS API Gateway和Lambda函数)提供自动扩展能力。平台支持高达5TB的单个文件传输,采用基于清单的数据传输工作流,通过Pennsieve Agent管理大规模数据上传下载。元数据管理采用自定义模式,建立文件结构与元数据图之间的关联,并提供内置可视化工具。数据发布流程包含人工与自动化审查机制,包括外部数据管理团队审核、标准化目录结构和质量验证工作流(如脑成像数据标准BIDS合规性检查)。
多模态数据管理
Pennsieve设计理念的核心是将文件管理与元数据管理相集成,以完整上下文捕捉科学数据。平台支持临床、成像、时间序列和分子数据等多种模态,提供数据集创建、删除、文件组织、共享和权限管理全套功能。通过应用程序编程接口(API)实现从数据上传下载到复杂查询检索的操作,数据集可按集合分类并标注在出版流程中的进度状态。
全面元数据支持
平台提供全面的元数据管理功能,用户可创建自定义模式的详细元数据模型,建立元数据记录与相关文件间的连接。内置元数据图结构可视化工具帮助研究人员理解数据集内的关联关系,发布的元数据与文件一同公开,便于与其他系统集成。
FAIR数据共享
为促进可发现性,Pennsieve为每个发布的数据集版本分配数字对象标识符(DOI),使数据集可通过谷歌数据集搜索等引擎被全球研究人员发现。Pennsieve Discover作为公共存储库,为每个数据集提供专属页面,包含数据集详情并支持文件浏览、可视化和下载。通过标准化出版模式和元数据表格化序列化确保互操作性,所有数据导出至云对象存储,用户无需平台限制或专用工具即可获取数据。
数据可靠性与利用
平台在数据从上传到发布及发布后管理的全周期确保可靠性。文件上传时创建清单详细记录每个文件状态,数据集活动日志记录所有修改时间戳和相应用户。管理员通过治理机制控制数据集访问、查看、编辑和贡献权限。发布后修改实行版本控制,每个版本分配独立DOI,支持研究人员引用特定数据版本。
数据整合与标准化
Pennsieve通过协议和工具组合实现数据标准化,确保跨数据集一致性。支持多种标准数据格式,在上传和发布阶段进行验证和质量检查。数据集按层次结构组织,发布数据集遵循标准化目录结构和预定义信息字段。API可用于实施标准化数据处理和分析步骤。
促进协作科学
平台的多租户架构支持独立工作区,研究小组可在此组织、管理和私下共享数据集。基于角色的权限管理控制用户访问和能力,数据集默认私有,需所有者明确授权访问。平台专为科学用例开发,支持脑电图(EEG)、临床影像和显微镜成像等数据类型的直接查看和注释,减少对文件共享和外部软件依赖。
支持可扩展分析
平台架构为独立微服务集合,部署于AWS确保高可用性、并发访问支持和大规模数据集管理。核心API服务通过负载均衡器部署在ECS上,采用自动扩展适应需求,服务分布多个可用区实现容错。新服务利用无服务器架构提供自动大规模扩展能力。支持海量文件和大文件(最高5TB)管理,通过Pennsieve Agent管理的基于清单的数据传输工作流,用户可直接与AWS S3云对象存储传输数据。支持云端数据分析,用户可注册自己的计算资源直接对托管数据执行计算工作流。
资源可持续性
平台可持续发展涵盖技术架构、数据保存政策和财务模型。技术层面采用成本效益架构,容器服务与无服务器工作负载结合,空闲时缩容至零。数据集存储于AWS S3,按自动化分层生命周期策略将不活跃文件迁移至归档层。支持按工作区分布式数据存储,符合当地数据主权法律。财务层面采用混合策略,结合资助经费、机构承诺和新兴成本回收机制。大学提供基础支持,承诺至少保存数据10年。通过数据集提交费(25GB以下免费)、订阅和使用量计费模式分摊成本,追求健康保险流通与责任法案(HIPAA)合规认证以支持临床试验。
研究结论表明,Pennsieve为神经科学数据管理提供了全面解决方案,通过强调元数据管理、协作、数据发布和可扩展性,有效支持现代神经科学研究需求。平台已产生显著影响,服务全球80多个研究点的1700多名注册用户,存储125TB数据(含250万文件),包含350多个公共数据集。数据集下载量达10432次,涉及271个独特公共数据集,呈现典型长尾分布模式。平台支持多项重大研究计划,包括NIH的刺激外周活动缓解病症(SPARC)计划、终结成瘾长期(HEAL)计划的重建关节健康与功能减轻疼痛(RE-JOIN)联盟和精确人类疼痛(PRECISION Human Pain)网络,以及癫痫科学研究门户等专业领域项目。
讨论部分强调,Pennsieve从工业界到学术界的转型至关重要,将其重塑为优先考虑开放科学和FAIR原则的可持续模式。这一转变增强了平台在研究人员中的可信度和采用率,开源计划参与度提高。未来发展方向包括试点适度使用量计费模式和混合资助模式,支持分布式分析,积极寻求与其他学术和商业平台集成,扩大在神经科学界可用科学工具和基础设施生态系统中的影响力。研究团队坚信,未来十年神经科学研究将趋向于整合分析工具、存储库和其他系统性提升数据利用能力的工作,以推动新发现和疾病治疗方法开发。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号