综述:合成孔径雷达在变化星球上的应用:灾害评估、城市发展和生态应用中的25年全球综述

《Ecological Informatics》:Synthetic aperture radar for a changing planet: A 25-year global synthesis in hazard assessment, urban development, and ecological applications

【字体: 时间:2025年10月18日 来源:Ecological Informatics 7.3

编辑推荐:

  这篇综述创新性地将卷积神经网络(CNN)应用于欧洲野猫(Felis silvestris, WC)、杂交猫(F. silvestris × catus, HY)和家猫(F. catus, DC)的分类识别。研究通过整合相机陷阱、路杀个体和研究团队采集的真实世界图像,开发了最高准确率达86%的MobileViTv2模型,并成功部署为离线移动应用。该工作为野猫保护提供了一个可复现的现场就绪工具,展示了人工智能(AI)在应对物种杂交这一紧迫保护挑战中的巨大潜力。

  
1. 引言和动机
欧洲野猫(Felis silvestris)正面临其生存中最隐蔽的威胁之一:与家猫(Felis catus)的杂交。在当前生物多样性危机的背景下,野猫的案例 exemplifies 遗传渐渗如何加速物种衰退。与栖息地丧失或偷猎等更显见的威胁相比,杂交常常被低估,但它已导致苏格兰野猫种群功能性灭绝,个体现在主要由杂交后代代表。这种情况凸显了将杂交作为欧洲野猫保护优先事项的紧迫性。
野猫与家猫的杂交并不局限于苏格兰,而是在欧洲广泛存在,在葡萄牙、西班牙、法国、德国、瑞士和意大利都检测到了杂交个体。野猫是一种小型猫科动物,体重3.7–4.9千克,存在于多个欧洲国家,目前被世界自然保护联盟(IUCN)列为“无危”物种,尽管杂交是其面临的主要保护挑战。
遗传分析对于检测杂交事件至关重要,即使是发生在许多代之前的杂交。然而,获取野猫样本(即用于提取DNA的生物材料)并非易事,因为野猫种群密度通常较低,因此非侵入性采样方法(如毛发陷阱和粪便收集)可能只能获得少数个体的样本。在遗传工具出现之前,研究人员依赖颅骨指数和肠道长度等解剖学测量来区分野猫、杂交猫和家猫,直到Ragni和Possenti(1996)首次通过识别四个诊断性身体区域(即Gularis, Occipitalis-Cervicalis, Dorsalis, Caudalis)描述了野猫的皮毛斑纹,该方法能有效区分野猫和家猫。后来,Kitchener及其同事扩展了这一模型,纳入了更多判别性形态特征(如尾巴形状、条纹清晰度、侧腹和后躯的斑点),这些特征对分类杂交猫也有效。有趣的是,结合遗传和形态学分析的研究显示出令人鼓舞的一致性,尽管任何形态学分类的可靠性都严重依赖于观察者的专业知识和图像质量,这使得可重复性具有挑战性。
人工智能(AI)越来越多地应用于野生动物研究,为相机陷阱调查中图像或视频的标记和理解等几个耗时过程提供了快速、稳健且可扩展的解决方案。类似的基于分类的方法也已应用于其他物种,突显了AI方法在野生动物监测中的多功能性。卷积神经网络(CNN)不仅能够学习野猫皮毛图案中明显的异常(如身体上的大片白色区域),还能学习细微的形态特征(如颅骨测量值),这有助于稳健地执行此分类任务。
2. 分类任务的相关工作
分类是计算机视觉中的一项基本任务,已在广泛的数据集和领域中得到深入探索。近年来,研究越来越关注开发适用于资源受限环境的高效轻量级模型。
MobileNet系列一直是这一进展的核心。MobileNetV2通过深度可分离卷积和优化的残差块,在基准分类任务中取得了先进的结果。MobileNetV3通过神经架构搜索设计并结合挤压激励模块,进一步提高了效率。然而,其大型变体在小数据集上表现出过拟合问题,表明增加复杂性并不总是有益的。
InceptionV3提供了另一种方法,使用不同大小的多个卷积滤波器来捕获多尺度特征,同时降低计算成本。在猫品种分类任务中,InceptionV3达到了有竞争力的准确率(79%–80%),但MobileNetV2表现稍好(82%),突出了针对小数据集和移动场景定制的模型的优势。
在CNN效率的基础上,MobileViTv2将卷积层与视觉变换器(Vision Transformer)集成,以捕获局部和全局上下文。通过将可分离卷积与自注意力相结合,它以较低的开销实现了长程依赖建模。在植物病害分类中,它的表现优于EfficientNet-B7和集成基线,展示了跨条件下的高准确率和强泛化能力。这些结果表明,MobileViTv2不仅继承了MobileNetV2的部署优势,还引入了对现代识别任务至关重要的基于变换器的增强功能。
动物物种和品种的分类长期以来一直是科学兴趣的课题,CNN始终提供着强大的性能。总体而言,基于CNN的方法在物种和品种层面分类动物方面已显示出强大的可行性。然而,挑战依然存在,特别是在数据集大小、类内相似性以及在实际场景(如野生动物监测)中需要有效的细粒度分类方法方面。CNN和变换器架构日益增长的集成为解决这些局限性同时保持部署关键环境下的效率提供了有前景的方向。
3. 材料与方法
3.1. 架构描述
研究测试并比较了五种卷积神经网络(CNN)架构,以对猫图像进行分类,每种架构在效率和准确性方面都表现出特定特性。这些架构因其轻量化和计算效率而被选中,这是在移动设备上实现分类模型的关键特征。
MobileNetV2专为移动设备设计,引入了线性瓶颈和倒残差两个关键创新。这些机制通过减少最紧凑层中的信息丢失来保持计算效率。深度可分离卷积减少了操作次数而不影响性能,使该网络成为资源受限环境的理想选择。
MobileNetV3是MobileNetV2的直接演进,通过自动技术(平台感知NAS和NetAdapt)和手动修改(如使用h-swish激活函数代替ReLU以及优化挤压激励模块)进行了优化。它提供两种主要变体:MobileNetV3-Large具有更高的准确性但权重稍大,专为高计算能力设备设计;MobileNetV3-Small专为低功耗环境设计,结构简化,是实时应用的理想选择。
InceptionV3基于使用Inception模块,该模块并行组合不同大小的卷积,从而实现多尺度特征提取。使用批量归一化和标签平滑等技术可以在控制参数数量的同时达到高性能。InceptionV3比MobileNet更重,但通常提供更强的表征能力,证明对复杂图像的精细分类有用。
MobileViTv2是一种混合架构,集成了局部卷积和变换器模块,通过使用可分离自注意力克服了传统变换器的计算限制,将复杂度从二次降低到线性。这种方法在需要平衡准确性和执行速度的场景中特别合适。该算法提供了出色的全局关系建模,即使在高分辨率图像上也特别有效。
3.2. 数据集描述
本研究使用CNN模型对来自真实世界图像(例如来自相机陷阱、路杀或机会性图像)的野生猫(WC = Felis silvestris)、杂交猫(HY = Felis silvestris x catus)和家猫(DC = Felis catus)进行分类。最初,我们汇集了两个独立的数据集。第一个称为初始数据集,包含三个猫类的图像,其中一部分图像与遗传分析相关联。第二个数据集称为遗传数据集,仅包含与遗传分析相关的猫图像。
初始数据集的图像通过不同来源收集,并经过YOLOv12模型过滤以检测猫的存在,保留猫形状可识别的图像,最终形成一个不平衡数据集。该不平衡数据集被进一步手动过滤,以保留高质量图像并平衡每个猫类的图像数量,从而得到一个平衡数据集。总共有五种不同的CNN架构在平衡数据集上进行了训练,然后准确率最高的模型(即MobileViTv2 = 86%)在遗传数据集上进行了进一步测试,准确率达到71%。然而,当该架构在不平衡且更大的数据集上训练时,遗传测试的准确率提高到81%。
此外,还对数据集的视觉特征进行了探索性分析,重点关注三个基本参数:亮度、对比度和饱和度。分析揭示了猫类在亮度和饱和度方面存在显著差异,对比度行为相对均匀。这些差异虽然微小,但对数据解释具有重要意义,应在预处理和机器学习模型开发阶段予以考虑。
3.3. 工作流程描述
首先,使用YOLOv12模型筛选初始数据集以检测猫的存在;这一初步步骤旨在丢弃猫形状无法识别的图像,从而优化性能并减少计算负载。过滤后,得到的不平衡数据集被进一步手动过滤,仅保留高质量图像,得到一个平衡数据集;此步骤是为了在比较不同候选架构时减少不平衡数据集的偏差。最终,根据之前步骤的结果,最准确的架构在不平衡数据集上重新训练,并最终在遗传数据集上进行测试。这种方法确保了最有希望的架构在训练期间未使用的图像集上得到验证,最终目标是评估其分类未知图像的真正泛化能力。
3.4. 最准确架构的微调
最准确的模型使用缩放至384 × 384像素的图像进行训练。为了最大化学习效果,实施了以下特征:类加权策略以补偿数据中存在的轻微不平衡;使用ReLU和Dropout特征以提高模型的泛化能力;训练通过使用带权重的交叉熵损失函数、AdamW优化器以实现更稳定的学习、以及OneCycleLR调度器进行动态学习率管理。总体而言,这些特征的协同使用在训练过程中实现了稳定有效的系统。此外,每当测试图像时都会生成Grad-CAM热力图;该技术使用流入最终卷积层的任何目标概念的梯度来产生粗定位图,突出显示图像中用于预测概念的重要区域,提供视觉解释,使深度学习模型更具可解释性和透明度。
本研究的主要目标之一是开发一个用户友好的移动应用程序,供研究人员在实际场景中使用。为此,研究期间开发的最佳分类模型经过进一步改进和调整,以用于移动平台。这种调整涉及将分类过程分为两个独立的阶段。
检测阶段:在初始阶段,系统配置为使用YOLOv8n目标检测模型检测相机视场中猫的存在。选择YOLOv8n是因为其轻量级架构,特别适合移动设备。这第一步过滤对于排除猫视觉上不可见的图像至关重要,从而避免额外计算并提高系统效率。
分类阶段:一旦系统成功检测到猫,它使用项目期间训练的图像分类模型将其分类为三个定义类别之一:野猫(WC)、杂交猫(HY)或家猫(DC)。该模型能够高精度地区分这些猫类,并提供跨三个类别的概率分布,提供清晰的决策结果。
3.5. 系统要求
Android是一个异构平台,设备硬件性能差异很大。为了确保流畅一致的用户体验,有必要定义最低系统要求。该应用程序已在多台设备上进行了测试。尽管具有兼容性,但在该型号上出现了速度减慢和响应评级较低的情况。因此,建议在中高端智能手机上使用。在计算能力有限的设备上,应用程序保留其功能性,但响应时间更长,性能降低。通过使用适当的硬件,可以充分利用所提供的全部功能,显著增强用户体验。
4. 结果
我们在猫图像的平衡数据集上评估了五种基于CNN的架构:MobileNetV2、MobileNetV3-Small、MobileNetV3-Large、InceptionV3和MobileViTv2-150。结果显示,MobileViTv2-150达到了最高的分类准确率,为86.00%,紧随其后的是InceptionV3,为85.59%。然而,InceptionV3模型具有显著高于其他神经架构的参数数量,其高计算复杂性导致其被排除在最终实现之外,因为其大小和推理时间与移动设备所需的资源和性能约束不兼容。
尽管MobileViTv2-150达到了最高的准确率,混淆矩阵分析显示该模型难以区分HY和WC类,可能是由于重叠的形态特征和相似的皮毛图案。因此,我们通过在其上测试遗传数据集来进一步评估模型的泛化能力,该模型的准确率降至71.00%。然而,当MobileViTv2-150在不平衡数据集上训练并再次在遗传数据集上测试时,准确率提高到81.00%,代表了这两个版本模型之间准确率绝对提高了10个百分点。
此外,通过比较在平衡和不平衡数据集上训练的MobileViTv2-150的混淆矩阵,可以明显看出HY和DC类之间的误分类减少了。此外,尽管WC类的召回率略有下降,但总体精确度提高了,表明不平衡数据集更好地捕获了与实际场景相关的类间变异性。
MobileViTv2-150模型在遗传数据集上的分类性能显示,总体准确率为81%。在三个类别中,DC类表现出最高的精确度和F1分数,表明分类可靠。WC类也表现出强劲且平衡的性能,精确度和召回率均高于0.82。相比之下,HY类的精确度最低,表明误报率较高,尽管其召回率表明具有中等敏感性。这些结果突出了模型在跨类别上良好泛化的能力,尽管在识别杂交猫方面表现出一些混淆。
训练动态图说明了MobileViTv2-150模型在不平衡数据集上的训练情况。准确率曲线显示训练集和测试集都有稳定改进,测试准确率在81%左右趋于稳定,并与训练曲线保持一致的差距,表明具有良好的泛化性且没有过拟合迹象。损失曲线呈现训练和测试损失的持续下降,收敛发生在第60个周期左右。损失曲线的平滑和平行趋势进一步证实了模型的稳定学习行为和有效的正则化。
5. 讨论
来自不同科学领域(动物学、信息学和社会科学)的研究人员的合作,并进一步得到两个独立网络(一个野猫研究人员网络和一个公民科学家网络)的支持,导致开发了一个用于分类野生猫图像创新且可靠的模型。我们的分类模型进一步被集成为移动应用程序进行分发,能够离线工作,适用于两种最常见的移动操作系统。
MobileViTv2-150架构在准确性方面优于所有其他测试架构,同时在模型复杂性和性能之间保持了有利的权衡,使其非常适合移动应用。将卷积神经网络(CNN)和视觉变换器(Vision Transformer)应用于生态信息学近年来显著增加。与这些研究相比,我们的先驱工作贡献了一个便携式轻量级识别工具,专门针对区分野生猫、杂交猫和家猫个体这一生态挑战而定制。这一重点不仅解决了一个生物学相关且分类学上具有挑战性的分类问题,还突出了在实践现场应用中结合公民科学和保护研究的潜力。
我们研究结果的更广泛生态意义在于使非专家(如公民科学家或野生动物爱好者)能够为野生动物监测贡献可靠数据。该应用程序为大规模、分布式数据收集提供了一个可访问的工具,这对于像野猫这样保护状况受到杂交威胁的物种尤其相关。通过将人工智能(AI)嵌入移动技术,我们的方法降低了生态数据获取的入门门槛,并支持基于证据的保护规划。此外,采用标准化分类工具可能有助于数据的可重复性,从而促进跨项目和国家的可比性,为跨国保护战略做出贡献。
当比较在两个数据集(平衡与不平衡)上训练的模型的混淆矩阵时,在不平衡数据集上训练的模型性能更好,表明每个猫类的图像数量在增强泛化能力方面起着关键作用,特别是对于像我们案例中代表性不足的HY类。为了进一步理解模型的决策过程,检查了为遗传数据集生成的Grad-CAM可视化结果,证实模型捕获了与人类可解释区域一致的判别性模式(如耳朵形状、毛色、尾巴)。
混淆矩阵显示HY的误分类率高于其他两个类别:这种较低的准确率出于两个原因是可以预期的。首先,HY类的图像数量最少,并且大多数HY图像是在兽医尸检期间以侧面或腹面姿势拍摄的。因此,HY图像中身体姿势范围有限可能是该类在泛化到真实世界图像时准确率相对较低的原因之一。第二个原因在于斑纹家猫(即具有斑纹图案的Felis catus)、HY和WC之间皮毛图案的视觉相似性,这是我们模型旨在解决分类问题的固有特征;尽管存在上述局限性,该模型展示了令人满意的学习能力,但必须获取更多HY图像以实现该类更高的准确度。
生态信息学界的另一个关键问题是可重复性。我们的研究强调需要使数据和代码可访问以进行验证和重用。虽然隐私和伦理约束阻止了部分训练图像的完全公开,但训练好的模型权重和实现流程将提供,以确保其他研究人员可以独立重复和扩展该研究。这与当前开放生态数据科学的最佳实践相一致,并加强了我们结果的可信度和实用性。
总体而言,我们的模型是一个有价值的工具,当相机陷阱研究需要对野生猫进行分类时,可以作为标准基准。我们工作的新颖性源于将便携式识别工具与全面的统计分析无缝集成,用于保护动物学。尽管隐私限制阻止了用于训练CNN架构的数据集的完全公开,但从欧洲野猫研究人员网络获得的支持至关重要,并突显了对能够处理此分类问题的深度学习模型的迫切需求。未来的工作将集中在扩展数据集、增强杂交检测算法以及进行深入的用户反馈分析,以改进可用性和分类性能。
6. 结论
本文介绍了一个用于野生猫分类学分类的移动应用程序,并为野猫研究和保护提供了宝贵的见解。该应用程序利用定制的现代人工神经网络进行图像分类,仔细考虑了准确性和计算要求之间的权衡。模型完全在设备上运行,支持完全离线操作。该系统已被证明能够在各种真实世界条件下对输入图像进行分类。这些结果是使用为本研究创建的新数据集获得的,并进一步在遗传验证数据集上进行了验证。它们共同证明了在资源受限的移动硬件上部署先进神经模型的可行性。
未来的工作将集中在扩展遗传数据集、增强杂交检测算法以及进行深入的用户反馈分析,以改进可用性和分类性能。观察到HY和WC类之间存在轻微混淆,表明区分它们的皮毛图案存在固有困难。尽管数据集有限,该模型展示了令人满意的学习能力。DC类的较低准确率主要归因于两个因素。首先,受试者位置的差异是明显的:在训练数据集中,家猫以自然姿势呈现,而在遗传测试图像中,它们部分以标准化姿势出现,这些姿势在训练集中很少出现。其次,皮毛图案的视觉相似性产生了歧义,因为部分测试图像描绘了具有与杂交猫相似特征的受试者。还观察到HY和WC类之间的轻微混淆,这可能表明模型倾向于混淆这两个类别的图像。尽管数据集有限,该模型展示了令人满意的学习能力。然而,数据的缺乏限制了泛化能力。为了优化性能,必须扩展数据集,特别是DC类,纳入具有遗传测试典型姿势和视觉特征的图像。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号