地中海浮游生物图像数据集MedPlanktonSet:推动机器学习与生态研究的新资源

《Scientific Data》:Annotated IFCB plankton images from the Mediterranean Sea

【字体: 时间:2025年10月26日 来源:Scientific Data 6.9

编辑推荐:

  本研究针对地中海区域缺乏标注浮游生物图像数据的现状,构建了包含77,271张分类图像的MedPlanktonSet数据集。通过成像流式细胞仪(IFCB)采集那不勒斯湾六站点的样本,人工标注至139个分类单元,并提取V2/V4双版本特征数据。该资源解决了机器学习分类器训练样本不足的瓶颈,支持浮游生物三维重建、分类器开发及性状生态学研究,为地中海浮游生物监测与保护提供关键工具。

  
浮游生物是海洋生态系统的基石,它们支撑着渔业资源,驱动碳固定和营养循环,却因气候变化和污染面临严峻威胁。传统浮游生物监测依赖显微镜观察,虽精度高却耗时费力,难以捕捉短时动态变化;分子技术能发现稀有物种,但定量困难且依赖数据库完整性。这些局限催生了浮游生物成像技术的兴起,其中成像流式细胞仪(IFCB)可自动采集高分辨率图像,实现高频监测。然而,IFCB每秒产生海量图像,人工分类已成瓶颈——训练一个有效的机器学习分类器需每类至少千张图像,且需专家耗时标注。更棘手的是,现有公开标注数据集多集中于北大西洋或波罗的海,地中海作为生物多样性热点区域竟无覆盖!
为此,意大利安东·多恩动物站的研究团队开展了MedPlanktonSet项目,旨在填补这一空白。研究团队于2022年11月至2025年2月,在那不勒斯湾的6个站点(包括长期生态研究站马雷基阿拉、萨尔诺河口等)连续采集表层海水,使用IFCB配置荧光触发模式获取图像。每张图像均经人工初步标注后,由至少两名专家复核,并参照AlgaeBase校对分类名称,最终形成139个分类类别。
关键技术方法包括:利用IFCB采集5毫升水样图像;通过MATLAB工具“startMC”进行人工注释;基于IFCB-analysis开源代码导出PNG图像并提取V2(237个特征)和V4(28个特征)双版本形态特征;所有数据通过Zenodo平台公开共享。
数据概览
MedPlanktonSet包含77,271张标注图像,涵盖18个浮游生物大类(如硅藻、甲藻、纤毛虫等),其中伪菱形藻(Pseudo-nitzschia spp.)更按细胞链长度细分为7类,便于精准计数。
技术验证
通过三级校验(初步标注+双专家复核+AlgaeBase核对)确保分类准确性,且所有图像均公开可查,支持分类结果的可重复性。
结论与意义
MedPlanktonSet作为地中海首个大型IFCB标注数据集,其多重价值凸显:一是为开发地域特异性机器学习分类器提供训练基础,尤其支持有害藻华(如亚历山大藻、Dinophysis等)的精准识别;二是通过多角度图像库助力浮游生物三维结构重建;三是特征数据可整合至全球浮游生物尺寸数据库(如Pelagic Size Structure),推动性状生态学研究;四是通过图像库缩短分类学家培训周期。该资源发表于《Scientific Data》,不仅缓解了IFCB用户社区的数据匮乏困境,更通过开源共享加速浮游生物生态学与保护政策的科学进程。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号