基于无人机影像的屋顶材料分类与分割:支持蚊媒疾病风险评估的Nacala数据集与深度有序分水岭方法

《Science of Remote Sensing》:Drone imagery for roof detection, classification, and segmentation to support Mosquito-borne disease risk assessment: The Nacala-Roof-Material dataset

【字体: 时间:2025年10月19日 来源:Science of Remote Sensing 5.2

编辑推荐:

  本研究针对撒哈拉以南非洲地区疟疾风险评估中高质量屋顶材料数据的缺乏问题,开展了基于无人机影像的屋顶检测、分类与分割研究。研究人员发布了Nacala-Roof-Material数据集,并评估了U-Net、YOLOv8和DINOv2等先进方法,提出了一种深度有序分水岭(DOW)变体。结果表明,该方法能有效改善建筑物分离和屋顶材料分类,为蚊媒疾病风险测绘提供了重要工具,相关成果发表于《Science of Remote Sensing》。

  
在撒哈拉以南非洲地区,疟疾仍然是严重的公共卫生问题,每年导致数十万人死亡。研究表明,低质量住房,特别是某些屋顶特征,与疟疾感染风险增加密切相关。例如,茅草屋顶的房屋比金属屋顶的房屋更容易有蚊子栖息,因为金属屋顶白天温度更高,可能降低蚊子的生存率。然而,要在大范围内评估疟疾风险,需要高分辨率的屋顶材料数据,而这在疾病高发地区往往难以获得。遥感技术,特别是高分辨率无人机影像,为解决这一问题提供了可能,但缺乏高质量、精细标注的数据集和有效的自动化分析方法。
为此,由哥本哈根大学的研究人员领衔的国际团队在莫桑比克的纳卡拉地区开展了了一项创新研究。他们利用无人机采集了分辨率高达约4.4厘米的影像,涵盖了该地区的城郊和农村定居点。莫桑比克是疟疾高发国家,其负担约为世界平均水平的10倍,因此成为理想的研究区域。研究人员与当地非政府组织合作,精心标注了17,954栋建筑物,并将其屋顶材料分为五类:金属板、茅草、石棉、混凝土和无屋顶。这一数据集被命名为Nacala-Roof-Material数据集,它不仅提供了建筑物轮廓的精确分割标签,还包含了详细的屋顶材料分类信息,为开发机器学习算法支持疟疾风险评估奠定了重要基础。
这项研究定义了一个多任务计算机视觉问题,包括物体检测(建筑物检测)、多类分类(屋顶材料分类)和像素级分割(建筑物分割)。尽管这些任务密切相关,但研究人员发现它们的目标存在潜在冲突。例如,高的交并比(IoU)分割精度并不一定意味着准确的物体分离(实例分割),反之亦然。当两个建筑物的屋顶几乎接触时,某些分割结果可能具有较高的IoU,但难以将建筑物分开计数,这可能导致屋顶材料误分类。
为了应对这一挑战,研究人员对多种最先进的方法进行了基准测试。他们评估了三种概念不同的方法:经典的U-Net架构(专为语义分割设计)、YOLOv8(用于物体检测、分类和实例分割的流行框架)以及一个基于DINOv2(一种先进的预训练视觉Transformer)的自定义解码器。结果表明,没有一种方法在所有指标上都优于其他方法。YOLOv8在物体检测(如AP50)方面表现良好,而U-Net在语义分割(IoU)方面更胜一筹。
研究的一个重要贡献是提出了深度有序分水岭(DOW)方法的一个变体。该方法扩展了U-Net和DINOv2模型,使其除了预测标准的分割掩码外,还预测一个额外的输出图,用于表示物体的内部区域。标准分割图旨在最大化IoU,而内部图则有助于物体分离。具体而言,DOW方法将每个像素分配到一个离散的高度级别,背景像素级别最高,物体内部像素级别最低。通过应用分水岭算法,可以根据预测的高度图(拓扑图)来分离个体对象。这种方法类似于洪水模拟,从局部最小值(盆地)开始"淹没",直到不同盆地的水在分水岭线上相遇。属于同一盆地的像素被归为同一物体。
研究人员在两种设置下比较了这些方法:两阶段方法和端到端方法。在两阶段方法中,先解决建筑物分割和分离任务,然后再对每个检测到的建筑物进行屋顶材料分类。在端到端方法中,分割和分类并行进行。实验结果显示,DOW扩展普遍改善了U-Net和DINOv2架构的性能。例如,比较DINOv2与DINOv2DOW,以及U-Net与U-NetDOW,DOW变体在大多数性能指标上都有提升,特别是在改善物体分离方面效果显著,同时保持了良好的分割精度。
在技术方法上,研究人员主要采用了以下几种关键方法。首先是数据集的构建与标注:利用DJI Phantom 4 Pro无人机在120米飞行高度采集影像,通过Agisoft Metashape软件处理,并由当地团队成员和研究人员经过三步流程(野外追踪、数字化、作者验证)进行精细标注,确保了标签的高质量。其次是模型架构与训练:基准模型包括基于ResNet34编码器的U-Net、预训练的YOLOv8模型以及基于DINOv2视觉Transformer的编码器加上卷积解码器的架构。所有模型(除YOLOv8遵循其原始协议外)均使用带像素加权的交叉熵损失和AdamW优化器进行训练。第三是提出的深度有序分水岭(DOW)方法:通过欧几里得距离变换将二进制分割掩码转换为多个高度级别的目标标签,使模型能够学习物体的内部区域,从而改善实例分离。第四是评估策略:采用分层抽样将数据划分为训练集(Dtrain)、验证集(Dval)和测试集(Dtest),并保留一个地理上独立的区域作为外部测试集(Dext)以评估泛化能力。主要评估指标包括用于语义分割的IoU和mIoU,以及用于实例分割的AP50和mAP50
4.3. 结果与讨论
方法比较
实验结果清楚地表明,没有一种方法在所有评估指标上全面领先。YOLOv8在其"主场"——物体检测任务上表现出色,获得了最佳的AP50分数。而U-Net则在语义分割任务上,以IoU衡量,展现了其优势。然而,高的IoU分数并不总是意味着准确的物体分离,特别是在建筑物间距很近、边界模糊的情况下。相比之下,YOLOv8等物体检测模型优先考虑分离个体对象,因此能获得更高的AP50,但在像素级的IoU上则较低。U-NetDOW通过分别预测物体内部来处理边界分离问题,其在IoU上的表现与U-Net相当,而在AP50上则接近YOLOv8。基于DINOv2并结合简单解码器的方法也表现出竞争力。可以预见的是,对少数类屋顶材料(如石棉,特别是混凝土,其外观与混凝土地面背景相似)的分类最为困难,这对于端到端的YOLOv8尤其明显。
DOW方法的效果
总体而言,DOW扩展对U-Net和DINOv2架构都有改善作用。比较DINOv2与DINOv2DOW,以及U-Net与U-NetDOW,DOW变体在绝大多数性能指标上更优。DOW方法的改进效果在图6中得到了直观展示。所提出的方法能够清晰地勾勒出单个建筑物,避免了如图B.9所示的屋顶材料误分类情况。我们的物体级指标,如AP50、AP50-95和TPs,表明了模型在克服相邻建筑物"粘连"所致错误方面的能力。例如,在应用我们通用的DOW方法后,U-Net和DINOv2考虑类别标签后的TPs分别提升了2.3%和4.2%。将DINOv2Multi与DINOv2DOW-Multi比较,后者在除Dext上的mAP503之外的所有指标上均更优。只有U-NetDOW-Multi的结果好坏参半。研究人员还尝试了另一种方法,使用具有两个头的U-Net,分别预测完整的建筑物掩码和相连建筑物的边界。尽管该模型的性能也不错,但U-NetDOW的结果始终更优。
决策与政策制定
随着撒哈拉以南非洲城市疟疾威胁的日益增长,特别是由于斯氏按蚊的传播,无人机调查与深度学习相结合有助于识别建筑环境中的局部风险因素。屋顶材料分类为评估家庭层面蚊媒疾病脆弱性提供了一个有价值的代理指标,补充了靠近静水等传统生态指标。这些模型的输出可以集成到公共卫生GIS系统中,以支持早期预警并指导针对性干预措施的空间分布,例如经杀虫剂处理的蚊帐或室内滞留喷洒。虽然无人机调查资源密集,但其在高风险城市地区的战略性使用有助于制定精细尺度的疫情应对计划。未来,我们的方法可以适应卫星影像,以实现城市或区域范围内更广尺度的监测。这项工作流程有潜力为基于证据的公共卫生政策提供信息,并提高疟疾流行地区控制项目的效率。
计算需求
由于研究人员可能计算资源有限,我们分析了这些模型的部署运行时间以及训练时间。虽然所有方法的运行时间都在合理范围内,但端到端方法比两阶段方法更快,其中U-NetMulti是最快的模型,而DINOv2DOW是最慢的模型。基于在Dtest上的处理时间推算,绘制整个纳卡拉市(31,910公顷)的地图,U-NetMulti在单个具有64GB显存的AMDMi250X GPU上大约需要6.36个GPU小时。
数据集规模
我们使用80%的分层数据子集进行了实验。结果只有非常细微的变化,表明我们的训练数据集对于给定任务具有代表性且规模足够。
局限性
Nacala-Roof-Material数据集按当前标准并非大规模数据集,且仅限于单一区域。然而,考虑到低成本无人机技术的普及,高分辨率地理空间测绘在撒哈拉以南非洲正变得越来越经济实惠和普遍。因此,类似但未标注的数据很可能在未来几年内大规模出现,这使得现在开发方法以充分利用这些数据变得重要。涵盖非正式定居点的Nacala-Roof-Material数据集是我们的疾病风险监测和预防研究目标区域的一个良好范例。在此背景下,莫桑比克尤其相关,因为该国遭受着高疟疾发病率。来自纳卡拉的影像对于莫桑比克东北部的城郊和农村定居点具有典型性,这些地区有相似的住房结构和城市布局。因此,我们预计结果能直接推广到该地区的其他城郊和农村定居点。总体而言,我们认为需要像Nacala-Roof-Material数据这样的中等规模基准数据集来支持机器学习研究的公平性,因为我们需要那些计算资源有限的研究人员也能利用的基准。
5. 结论
Nacala-Roof-Material数据集包含了莫桑比克非正式定居点的高分辨率无人机影像,其中的建筑物及其屋顶材料经过了精心标注。我们策划这个数据集是一项洲际跨学科研究项目的一部分,该项目旨在评估蚊媒疾病(尤其是疟疾)风险,目标是预测风险地图并制定和支持风险降低措施。从方法学角度看,该数据集定义了一个多任务问题。我们既关注精确的语义分割以确定屋顶面积,也关注识别单个建筑物并分类其屋顶类型。因此,该数据集为计算机视觉基准 landscape 增添了新的资源,用于开发和评估那些旨在同时高精度解决语义分割、物体检测和分类问题的框架。例如,在Nacala-Roof-Material数据上的工作促使我们提出了深度有序分水岭方法,这是Cheng等人所描述方法的一个简化变体。这种变体方法首先将物体及其内部划分为两个高程级别,然后进行分水岭分割以分离物体。DOW思想的应用超越了Nacala-Roof-Material数据,在该数据上,它改善了标准U-Net架构以及一个基于DINOv2特征的分割系统。所有算法的实现将与数据一起公开可用。我们通过Nacala-Roof-Material数据集,邀请机器学习社区开发新的方法来解释高分辨率无人机影像,这些方法最终能够支持病媒传播疾病的风险评估。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号