综述:古生物学中清理化石出现数据应遵循的十条简单规则

《Palaeontology》:Ten simple rules to follow when cleaning occurrence data in palaeobiology

【字体: 时间:2025年10月25日 来源:Palaeontology 2.3

编辑推荐:

  本文为古生物数据分析提供了系统性的数据清洗指南,针对化石出现数据(fossil occurrence data)的独特属性提出十条实用规则,涵盖项目规划(规则1-3)、数据探索与清洗(规则4-8)、成果报告与存档(规则9-10)全流程。作者通过鳄类生物地理学案例演示标准化操作流程,强调数据透明度与可重复性(reproducibility)对PBDB(Paleobiology Database)、Neotoma等大型数据库分析的重要性,为处理分类学(taxonomy)、地层学(stratigraphy)和地理坐标不一致性等问题提供方法论支持。

  
规则一:选择与研究问题匹配的数据
研究伊始需明确数据需求,包括分类学层级(物种/属/科)、时间分辨率(精细地层或宽泛时期)和地理覆盖范围。例如全球古生物地理学研究需规避北美、欧洲的采样偏差,而物种级生态互动需确保种级鉴定可靠性。数据库选择应匹配研究目标:PBDB适合宏演化分析,Neotoma专注第四纪古生态,GBDB支持高分辨率地层研究。数据过滤(filtering)与清洗(cleaning)需严格区分——前者移除研究范围外数据(如海洋生物对陆地多样性研究),后者修正错误信息(如误标为海洋生物的鳄类)。
规则二:保持原始数据的原始性
下载数据后应立即创建只读备份,避免软件自动格式化(如Excel日期转换)导致数据失真。原始数据需采用非专有格式(如UTF-8编码的CSV)存储,并通过版本控制(如GitHub)或静态归档(如Zenodo)确保长期可获取。动态数据库(如PBDB持续更新分类观点)需通过DOI快照固化数据版本,防止后续修改影响分析复现。
规则三:系统记录工作流程
推荐使用编程脚本(R/Python)替代手动表格操作,实现可追溯的数据转换流程。代码注释应阐明每个步骤的决策依据(如分类学更新理由),辅以工作流工具(SnakeMake/Galaxy)自动化流程。示例显示可通过R包palaeoverse的tax_check()函数记录拼写校正过程,而OpenRefine可生成手动清理的可重复日志。
规则四:探索性数据分析先行
通过分布直方图、散点矩阵(GGally包)等可视化工具检验数据特征。例如检查分类等级分布时发现28%鳄类化石仅鉴定到属级,提示属级多样性分析更稳健;地理坐标映射意外显示南极记录需核查。相关矩阵可揭示地层年龄与坐标的异常关联,而palaeoverse的tax_unique()函数能识别因未定种(indet.)导致的“隐性多样性”。
规则五:处理不完整记录
缺失数据需区分“无法获取”(如碎片化石无地层信息)与“可推断”(通过坐标反推国家)。坐标缺失记录应移除而非插补,而“NA”值需验证是否真实缺失(如纳米比亚国家代码NA被误判为缺失值)。插补法(如mice包的多重插补)适用于连续变量(如气候数据),但可能引入偏差,需在文档中说明影响。
规则六:识别与处理异常值
年龄异常值(如单条记录使类群延展数百万年)可通过“Pacman法”(fossilbrush包)比对生物地层标准范围。地理异常采用凸包算法(CoordinateCleaner包)标记远离主体分布的坐标(如南极鳄类记录),并结合文献核查其合理性(是否属鉴定不确定标本)。统计策略上可使用95%分位数替代极值,或通过自助法(bootstrapping)削弱异常值影响。
规则七:解决数据不一致性
格式不一致(如地层名“San Sebastián”与“San Sebastian”)需通过文献核查统一,同时保留原列供比对。分类学争议(如Ptychopariida目这类“废纸篓类群”)需依据最新分类方案(Adrain, 2011)标准化。R包fossilbrush可自动标记地层与分类冲突,但需研究者结合专业知识最终裁定。
规则八:剔除重复记录
完全重复(所有字段相同)可通过dplyr::distinct()直接去重,而近似重复(同一化石被不同贡献者以细微差异录入)需联合多字段(参考文献+坐标+地层)判定。示例中通过比对collection_no与accepted_name组合发现24条绝对重复。跨数据库合并(如GBIF与PBDB)时需特别注意去重,避免同一标本多次计数。
规则九:全面报告清洗过程
方法部分需详述清洗前后数据量变化(如886条→862条)、移除记录的具体原因(如南极不确定标本的剔除),并附流程图说明决策路径。补充材料应包含PRISMA式筛选记录、数据摘要统计(如分类等级比例、国家分布),以及使用的R包版本引用(如palaeoverse 1.0.0)。
规则十:数据与工作流归档
原始数据、清洗后数据、分析脚本及元数据(Darwin Core标准)应存入持久化仓库(如Dryad/Zenodo),并选用合适许可(数据用CC0,代码用MIT)。元数据需明确字段定义(如min_ma指最小数值年龄,单位百万年),通过DOI实现数据引用,保障研究可重复性。
这套方法论体系通过标准化流程提升古生物学大数据研究的可靠性,尤其助力新手研究者规避常见陷阱,推动领域向更高透明度与协作性发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号