综述:基于计算机视觉和机器学习的植物物种识别:文献综述

《Ecological Informatics》:Advances in machine learning models for plant species identification: A scoping review

【字体: 时间:2025年12月01日 来源:Ecological Informatics 7.3

编辑推荐:

  这篇综述系统回顾了2017-2024年间植物物种图像识别领域的研究进展。文章详尽梳理了从图像采集、预处理、特征提取到各类机器学习(ML)与深度学习(DL)模型(如CNN、ViT、SVM、RF等)的应用,并探讨了数据增强、模型评估(如准确率、精确度、召回率、F1分数)及可解释AI(XAI)等关键技术。中心思想在于展示CV/ML技术如何推动植物分类学(Taxonomy)的自动化和精准化,同时指出当前挑战(如数据稀缺、类间不平衡)与未来方向(如自监督学习、大模型应用),为相关研究者提供了全面的技术路线图和实践指南。

  

引言

植物物种识别是生物多样性研究、农业管理和环境保护的核心任务。传统分类方法高度依赖植物学家的专业知识,过程耗时且易受主观因素影响。近年来,计算机视觉(CV)和机器学习(ML)技术的飞速发展为自动化、高精度的植物识别提供了强大工具。本文综述旨在系统梳理2017年至2024年间,基于图像的植物物种识别技术的研究进展,涵盖从数据采集到模型部署的全流程,并深入探讨各类方法的优势、局限及未来趋势。

图像采集与数据集构建

高质量的数据集是模型成功的基石。植物图像数据可通过多种途径获取:野外实地拍摄能捕获最真实的生长状态,但受环境光照、背景干扰大;标本馆扫描图像提供了标准化的样本,但可能失去鲜活色泽和纹理;从网络平台(如iNaturalist、PlantNet)爬取的数据量巨大,但噪声较多,需严格清洗。
目前公开的植物图像数据集种类繁多,侧重点各异。例如,Flavia、Swedish Leaf和MalayaKew数据集专注于叶片形态;ImageCLEF(特别是PlantCLEF系列)竞赛提供的则是大规模、多器官(叶、花、果、茎等)、在复杂自然背景下拍摄的图像,更贴近实际应用场景;而LeafSnap则包含了在可控条件下拍摄的叶片图像。这些数据集在物种数量、图像数量、图像质量、背景复杂度以及所包含的植物器官(叶、花、果实、树皮等)方面存在显著差异,直接影响了所开发模型的性能和泛化能力。
构建数据集时面临的主要挑战包括:类间样本数量不平衡(常见物种图像多,稀有物种图像少)、图像质量参差不齐(模糊、遮挡、光照不均)、以及同一物种因生长发育阶段、季节变化、地理分布不同而呈现出的巨大表型差异(即类内差异大)。此外,不同物种间可能形态相似(即类间差异小),进一步增加了识别的难度。

图像预处理与特征工程

在将图像输入模型之前,通常需要进行预处理以提升模型性能并减少无关变量的干扰。常见的操作包括:图像尺寸归一化、颜色空间转换(如RGB转灰度或HSV)、噪声滤波(如高斯滤波)、图像增强(如直方图均衡化)以及背景分割(如使用Otsu阈值法、Canny边缘检测或基于深度学习的语义分割模型如U-Net)以突出植物主体。
特征提取是从图像中抽提有价值信息的关键步骤,可分为基于手工设计的特征和基于深度学习自动学习的特征。
手工特征 需要领域知识,主要分为:
  • 形状特征:描述植物的宏观形态,如叶片的面积、周长、长宽比、偏心度、Hu不变矩等。这些特征对于具有独特形状的器官(如叶片)非常有效。
  • 纹理特征:刻画物体表面的微观结构,如叶脉的分布模式、树皮的粗糙度。常用的方法包括灰度共生矩阵(GLCM)、局部二值模式(LBP)、Gabor滤波器等,可以提取对比度、相关性、能量、同质性等统计量。
  • 颜色特征:利用颜色信息进行区分,尤其在花朵识别中至关重要。常提取颜色直方图(在RGB、HSV等颜色空间)的统计量,如均值、标准差、熵等。
  • 边缘和关键点特征:如SIFT、SURF、HOG等,用于描述物体的轮廓和局部显著点。
尽管手工特征具有解释性强的优点,但其设计依赖专家经验,且难以全面捕捉植物复杂多变的视觉模式。
深度学习特征 通过卷积神经网络(CNN)等模型自动从数据中学习层次化的特征表示。浅层网络学习基础特征(如边缘、角点),而深层网络则学习更抽象的语义特征(如叶片形状、花瓣纹理)。这种方法避免了繁琐的手工设计过程,并能从大量数据中学习到更具判别力的特征,已成为当前的主流方法。

机器学习模型与技术

植物物种识别任务广泛采用了从传统机器学习到前沿深度学习的一系列模型。
传统机器学习模型 通常在手工提取的特征之上进行分类。常用的模型包括:
  • 支持向量机(SVM):擅长处理高维特征空间,在小数据集上表现良好,可通过核函数处理非线性问题。
  • 随机森林(RF):一种集成学习算法,通过构建多棵决策树并综合其结果,具有抗过拟合能力强、能处理高维数据等优点。
  • K-最近邻(KNN):一种简单直观的惰性学习算法,但计算开销随数据量增大而增加。
    其他如逻辑回归(LR)、决策树(DT)、朴素贝叶斯(NB)等也有应用。这些模型在特定任务或小规模数据集上仍具价值,但整体性能通常不如深度学习模型。
深度学习模型 尤其是卷积神经网络(CNN),是当前研究的绝对主力。其优势在于端到端的学习能力和强大的特征表示能力。
  • 经典CNN架构:许多研究采用在大型图像数据集(如ImageNet)上预训练的模型进行迁移学习(TL),如VGG、ResNet、Inception、DenseNet、MobileNet、EfficientNet等。通过微调(Fine-tuning),这些模型能快速适配到植物识别任务,并取得优异效果。
  • Vision Transformer(ViT):这是一种新兴的架构,它将图像分割成序列化的图块,利用自注意力(Self-Attention)机制捕捉图像全局上下文信息。尽管ViT通常需要大量数据才能充分训练,但在大规模植物数据集上已展现出媲美甚至超越CNN的潜力。
  • 轻量级模型:如MobileNet、ShuffleNet,专为移动端和嵌入式设备设计,平衡了精度与效率,便于实际部署。
  • 专用与集成模型:研究者们也设计了专门的网络结构(如Siamese网络用于少样本学习、自定义CNN)或采用模型集成(如投票、堆叠)策略来进一步提升性能。

模型训练与优化策略

为了训练出鲁棒、高效的模型,一系列训练策略被广泛采用。
数据增强 是解决数据稀缺和过拟合问题的有效手段。除了常见的几何变换(旋转、翻转、缩放、裁剪)和颜色扰动(亮度、对比度调整)外,更先进的方法如MixUp、CutMix能通过线性插值或区域替换生成新样本;生成对抗网络(GAN)可用于合成难以获取的稀有物种图像;AutoAugment、RandAugment则能自动搜索最优的数据增强策略。
处理类别不平衡 至关重要。技术包括对少数类过采样(如SMOTE)、对多数类欠采样,或在损失函数中为不同类别赋予不同的权重(如加权交叉熵损失),使模型更关注难以分类的样本。
损失函数与优化器 的选择直接影响模型收敛和性能。交叉熵损失是最常用的分类损失。优化器如Adam、SGD及其变种被用于调整模型参数。此外,针对植物分类任务,一些研究引入了考虑植物 taxonomic 层级结构(如门、纲、目、科、属、种)的层次化损失函数(Hierarchical Loss),使错误发生在更近的亲缘关系上,符合生物学常识。
模型评估与可解释性 需要全面的指标。除准确率(Accuracy)外,精确率(Precision)、召回率(Recall)、F1分数(F1-Score)、AUC-ROC曲线等能更细致地评估模型性能,特别是在类别不平衡的情况下。对于细粒度分类,Top-k准确率(如Top-5)也常被使用。
可解释性AI(XAI)技术,如Grad-CAM、LRP、LIME、SHAP等,能够生成热力图可视化模型做出决策所依据的图像区域。这不仅能增强植物学家对模型的信任,还有助于诊断模型失败的原因(例如,模型是依据叶片形状还是无关的背景信息进行分类),从而指导模型改进。

挑战与未来展望

尽管取得了显著进展,该领域仍面临诸多挑战:
  1. 1.
    数据瓶颈:高质量、大规模、标注准确的植物图像数据集仍然匮乏,尤其是对于稀有物种和特定生长阶段。数据采集和标注成本高昂。
  2. 2.
    类内差异与类间相似性:同一物种在不同环境、季节、角度下形态变化大,而不同物种(特别是近缘种)可能形态极其相似,对模型的判别能力提出极高要求。
  3. 3.
    模型泛化能力:在特定数据集上训练良好的模型,迁移到不同地理区域、拍摄条件或物种库时,性能往往显著下降。
  4. 4.
    复杂背景与遮挡:野外拍摄的图像背景复杂,且植物器官可能被其他物体部分遮挡,增加识别难度。
  5. 5.
    计算资源与实时性:先进的深度学习模型通常计算量大,难以在资源受限的设备(如手机)上实时运行。
未来研究方向可能包括:
  • 利用大模型与自监督学习(SSL):借助在超大规模图像数据上预训练的视觉基础模型(如DINOv2),通过少量样本进行适配,解决数据稀缺问题。
  • 多模态融合:结合图像、地理位置、时间、文本描述(如植物志)等多模态信息进行综合判断,提升准确性和可靠性。
  • 3D与视频分析:利用3D扫描技术或视频序列信息,捕捉植物的动态生长过程和三维结构特征。
  • 终身与在线学习:使模型能够持续学习新出现的物种知识,而无需完全重新训练。
  • 领域自适应与联邦学习:保护数据隐私的同时,利用分散在不同机构的数据提升模型泛化能力。

结论

基于计算机视觉和机器学习的植物物种识别技术正处于快速发展阶段,并已展现出巨大的应用潜力。从依赖手工特征的传统机器学习到数据驱动的端到端深度学习,技术进步显著提升了识别的自动化水平和准确率。然而,要实现与人类专家相媲美甚至更优的、能在复杂真实环境中稳定工作的实用系统,仍需在数据资源、模型算法、跨领域合作等方面持续努力。未来的发展必将进一步推动植物学、生态学、农业及环境保护等相关领域的科学研究和实际应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号