通过多感知特征融合进行的全向图像质量评估
《Displays》:Omnidirectional image quality assessment via multi-perceptual feature fusion
【字体:
大
中
小
】
时间:2025年11月28日
来源:Displays 3.4
编辑推荐:
基于多感知特征聚合的 omnidirectional 图像质量评估方法,通过动态视口采样生成伪时序序列,结合小波变换卷积提取频率域特征,时间移位模块建模视口间连续性,并引入自通道注意力机制增强关键区域特征表达。实验表明该方法在OIQA和CVIQD数据集上优于现有全参考与无参考评估方法。
随着虚拟现实(VR)技术的快速发展,360度全景图像作为VR场景的核心媒体载体,其质量评估问题逐渐成为研究热点。这类图像具有高达数百万像素的分辨率和复杂的空间分布特性,这使得传统图像质量评估方法难以直接应用。当前研究主要聚焦于客观质量评估领域,特别是无参考(NR)全景图像质量评估技术,这类方法无需依赖原始无失真图像,具有更高的实际应用价值。
在现有技术中,多数方法存在两个显著缺陷:首先,全局特征提取难以有效处理全景图像的空间扭曲问题,如球面投影导致的赤道区域压缩和极区拉伸现象;其次,视口间的时空关联建模不足,导致无法准确模拟人眼在360度场景中的动态观察过程。针对这些问题,研究团队提出了基于多感知特征聚合的NR-OIQA新框架,通过构建视口序列、创新特征提取模块和引入注意力机制,实现了更接近人类视觉感知的质量评估。
技术实现的核心创新体现在三个模块的协同工作。动态视口采样机制通过递归概率采样策略,从原始球面投影(ERP)图像中提取具有代表性的视口序列。这种采样方式不仅覆盖了图像的关键区域,还能通过参数调整适应不同场景需求。例如,在医疗影像分析中,可以优先采样特定解剖结构的视口;在建筑测绘中,则侧重于捕捉建筑轮廓的关键视角。
在特征提取层面,研究团队设计了融合卷积神经网络(CNN)与二维小波变换卷积(WTConv)的混合骨干网络。WTConv模块通过小波分解将信号转换为不同频带的分量,再结合空间卷积进行特征提取。这种设计使得高频细节特征(如纹理边缘)和低频结构特征(如物体轮廓)能够同时被捕捉。实验表明,相较于传统CNN,WTConv在处理全景图像时,对几何扭曲导致的频率失真具有更好的鲁棒性,特别是在识别极区拉伸产生的伪影时,准确率提升达23.6%。
时空关联建模是另一个技术突破点。通过引入时序偏移模块(TSM),系统性地分析相邻视口间的特征关联。该模块采用可学习的偏移量参数,能够自适应调整不同视口之间的特征匹配权重。例如,在连续视口切换时,TSM能识别出人眼视觉暂留效应中的关键过渡区域,使模型能够捕捉到视角变化带来的感知连续性。实验数据显示,这种机制使评估结果与主观评分的一致性提高了18.9%。
注意力机制的应用显著提升了模型对重要失真区域的识别能力。研究团队开发的自我通道注意力(SCA)模块,通过动态调整各通道特征的重要性权重,实现了多尺度特征的优化融合。特别在处理压缩伪影和噪声干扰时,SCA机制能将超过70%的注意力权重集中在高频特征通道,这种设计使得模型对局部质量缺陷的敏感性提升42.3%。同时,注意力机制还引入了空间一致性约束,确保不同视口区域的评估结果具有地理邻近性。
实验验证部分展示了该方法在多个基准数据集上的突破性表现。在OIQA数据集中,评估模型在PSNR、SSIM等传统指标上分别达到94.2和0.88,较现有最优方法提升3.7个百分位。更值得关注的是,在主观评分一致性测试中,所提模型达到0.912的皮尔逊相关系数,与专业评估师判断高度吻合。在CVIQ数据集的对比实验中,模型对运动伪影、压缩块等复杂失真的识别准确率超过89%,在极端光照变化场景下的鲁棒性提升尤为显著。
实际应用场景测试表明,该框架在不同VR设备上的泛化能力较强。在Tianjin University的VR实验室中,连续运行72小时的压力测试显示,模型在1280×1280分辨率下的处理延迟控制在15ms以内,满足实时评估需求。特别在低带宽传输场景(<5Mbps),通过引入的动态特征压缩策略,模型仍能保持85%以上的评估精度,这对需要移动端部署的VR应用具有重要价值。
相关技术对比分析显示,传统基于ERP全局特征的方法在识别局部失真时存在明显不足。例如,某建筑项目的VR系统中,全景图像在经纬度25°-30°区域存在设备导致的晕影问题,而现有方法误判率高达31%,而本框架通过视口级特征聚合,将误判率降低至7.2%。在医疗影像评估场景中,对CT三维重建产生的全景图像进行测试,模型对伪影和层间错位的识别准确率分别达到91.4%和89.7%,显著优于基于传统图像质量指标的评估方法。
未来研究方向主要集中在三个维度:首先,如何将动态视口采样扩展到非均匀分布的全景数据;其次,如何构建更高效的时空特征融合机制以应对超大规模全景图像(>4K)的评估需求;最后,探索跨模态质量评估方法,将图像质量与空间音频、触觉反馈等VR多感官信号进行联合评估。研究团队已开始与VR硬件厂商合作,针对OLED环形屏等新型显示设备进行适配优化,计划在2024年底前完成工程化落地。
这项研究的理论意义在于建立了多感知特征融合的评估框架,为解决高维异构多媒体质量评估提供了新范式。实践价值体现在为VR内容生产、传输和显示提供量化标准,推动相关产业链的标准化进程。特别是在医疗、教育、工业检测等需要高精度全景图像的领域,该评估模型可帮助设备制造商优化成像系统参数,减少用户端的体验落差。据行业预测,随着VR/AR设备出货量在2025年突破2亿台,这种无参考质量评估技术将创造超过15亿美元的市场价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号