SATVIO:基于立体视觉注意力机制的视觉惯性里程计研究及其在自主导航中的性能提升
《IEEE Journal of Selected Areas in Sensors》:SATVIO: Stereo Attention-Based Visual Inertial Odometry
【字体:
大
中
小
】
时间:2025年11月20日
来源:IEEE Journal of Selected Areas in Sensors
编辑推荐:
本文推荐一项针对视觉惯性里程计(VIO)中尺度模糊和环境变化挑战的创新研究。作者提出SATVIO模型,通过引入三重注意力(TA)机制与早期立体融合策略,结合卷积神经网络(CNN)与长短期记忆网络(LSTM)实现多传感器数据融合。实验表明,该模型在KITTI数据集上相较于传统方法如ORB-SLAM2,在平移与旋转误差(trel/rrel)方面表现出竞争优势,为复杂环境下自主系统的精准轨迹估计提供了新思路。
在自主机器人导航领域,精确的里程计技术是实现可靠定位与运动规划的核心支撑。然而,单一传感器存在固有局限:激光雷达(LiDAR)成本高昂且笨重,惯性测量单元(IMU)易受噪声与漂移干扰,而单目相机系统虽成本低廉却难以克服尺度漂移与误差累积问题。为突破这些瓶颈,视觉惯性里程计(Visual Inertial Odometry, VIO)通过融合相机图像与IMU数据,成为提升位姿估计鲁棒性的重要途径。传统方法如ORB-SLAM2和直接稀疏里程计(DSO)依赖手工标定且对环境变化敏感,而深度学习技术为端到端可训练框架的开发提供了新可能。
在此背景下,马尔默大学的Raoof Doorshi等人提出了一种名为SATVIO(Stereo Attention-Based Visual Inertial Odometry)的新型立体视觉惯性里程计模型,该研究发表于《IEEE Journal of Selected Areas in Sensors》。SATVIO创新性地将三重注意力(Triplet Attention, TA)机制与早期立体融合策略相结合,旨在通过深度学习方法优化多传感器数据融合,提升复杂场景下的轨迹估计精度。
为验证模型有效性,研究团队采用KITTI里程计数据集进行实验,该数据集包含22组传感器序列,图像与真实值采集频率为10 Hz,IMU数据频率为100 Hz。SATVIO的核心技术方法包括:1) 使用早期融合策略对左右立体图像进行通道级拼接,并通过TA模块实现跨维度特征交互;2) 采用FlowNet架构的视觉编码器(Visual Encoder)提取丰富特征,替代浅层CNN以增强表征能力;3) 设计惯性编码器(Inertial Encoder)基于一维卷积层(Conv1-D)捕获IMU时序特征;4) 通过LSTM层与全连接层(FC)实现6自由度(6-DoF)位姿估计;5) 利用加权损失函数(Epose=Et+σEr,其中σ=100)平衡平移与旋转误差的梯度影响。
模型架构设计
SATVIO为端到端学习模型,其结构包含特征提取与位姿估计两大模块。特征提取模块由视觉编码器和惯性编码器组成:视觉编码器首先对左右立体图像进行早期融合,通过TA机制强化通道(C)、高度(H)与宽度(W)维度间的特征交互,再输入FlowNet衍生的CNN网络生成视觉特征;惯性编码器则对IMU测量序列进行时序建模。两类特征拼接后输入LSTM与全连接层,最终输出6自由度位姿。
三重注意力机制
TA模块通过三个并行分支分别捕捉不同维度间的依赖关系:第一分支关注通道与高度(C-H)交互,第二分支处理通道与宽度(C-W)关联,第三分支聚焦空间维度(H-W)关系。每个分支依次进行张量置换、Z-pooling(结合最大池化与平均池化)、卷积与Sigmoid激活,生成注意力权重后逆置换回原始维度,最终通过加权平均输出细化后的特征图。该机制在不降低维度的前提下提升了特征表征的完整性。
性能评估结果
实验采用两种数据划分方案:第一种以序列[00-08]训练、[09,10]测试,第二种以[05,07,10]测试、其余训练。结果表明,SATVIO在多数序列中优于传统方法(如ORB-SLAM与VINS-Mono)及部分学习模型(如DeepVIO)。在序列05与07中,其旋转误差(rrel)分别达1.47°/100m与2.0°/100m,优于ATVIO的2.4°/100m与2.59°/100m;平均平移误差(trel)为2.64%,旋转误差为1.07°/100m,虽略高于ATVIO(2.52%, 1.15°/100m),但显著低于传统方法。值得注意的是,在序列09等复杂场景中误差较高(trel=5.98%),表明模型对动态环境的适应性仍需优化。
讨论与展望
研究指出,SATVIO在有限硬件资源下(训练仅200轮)仍达到竞争性性能,且未使用预训练参数(如PSMNet或VONAS-A),体现了其架构效率。若增加训练轮次或引入变换器(Transformer)等先进位姿估计模块,性能可能进一步提升。未来工作将探索实时应用与极端环境下的鲁棒性,推动模型在自主驾驶等领域的实用化。
SATVIO通过立体注意力机制与早期融合策略,为视觉惯性里程计提供了新的技术路径。其平衡精度与计算复杂度的设计(LSTM内存复杂度为O(nd2),优于自注意力的O(n2d)),尤其在旋转估计方面的优势,为资源受限场景下的精准导航提供了可行方案。该研究不仅验证了注意力机制在传感器融合中的价值,也为深度学习驱动的里程计技术发展奠定了重要基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号