面向3D空间计算系统的AI硬件架构与芯片技术综述
《IEEE Open Journal of the Solid-State Circuits Society》:An Overview of AI Hardware Architectures and Silicon for 3-D Spatial Computing Systems
【字体:
大
中
小
】
时间:2025年11月21日
来源:IEEE Open Journal of the Solid-State Circuits Society 3.2
编辑推荐:
本文针对3D空间计算系统中AI算法处理高维数据时面临的能效与实时性挑战,系统综述了五大核心领域(3D数据采集、分析、手势分析、SLAM、渲染)的专用加速器设计。研究团队通过分析不同3D数据表征(点云/体素/栅格)的稀疏性特征,提出硬件-算法协同优化方案,最终构建出可支持实时交互的下一代空间计算平台。该成果为AR/VR、自动驾驶等低功耗边缘设备实现沉浸式体验提供了关键技术路径。
当你在虚拟现实中伸手触碰一朵悬浮的光束花,或通过自动驾驶系统实时识别街道障碍物时,背后是海量3D数据在毫秒级内的精准运算。传统2D图像处理器(GPU)面对具有额外深度轴的3D RGB-D数据时,就像用剪刀裁剪水波般力不从心——稀疏分布的点云会导致计算资源利用率骤降,而高精度的神经渲染又需消耗堪比超级计算机的算力。这类矛盾使得微软HoloLens 2、苹果Vision Pro等顶尖设备仍部分依赖传统计算机视觉算法,制约了沉浸式体验的进一步突破。
韩国科学技术院(KAIST)的Dongseok Im团队在《IEEE Open Journal of the Solid-State Circuits Society》发表的研究,系统性梳理了AI驱动型3D空间计算系统的硬件架构与芯片解决方案。该研究将复杂任务解构为五个关键环节:其中每个环节都面临独特挑战——例如3D数据采集需平衡扫描精度与功耗,SLAM(同步定位与建图)需同时满足位姿跟踪的高帧率与地图构建的精度,而神经渲染则需在有限功耗下实现光子级延迟的实时成像。
为突破这些瓶颈,研究人员创新性地采用了硬件-算法协同优化策略:针对点云数据的稀疏特性,开发了基于块存储的k近邻(k-NN)搜索架构;为加速神经辐射场(NeRF)训练,提出分段哈希编码以降低内存冲突;通过动态向量剪枝技术优化栅格化神经网络的计算负载。这些技术显著提升了3D数据处理效率,如点云神经网络(PNN)加速器可实现130帧/秒的实时检测,功耗仅2.7毫焦/帧。
研究通过四类关键技术实现优化:首先采用异构计算架构(如CNN与PNN的流水线并行),其次利用稀疏计算跳过无效操作(如3D卷积中的零值权重跳过),第三通过专用内存管理单元(如CAM映射单元)优化不规则数据访问,最后结合在线学习机制(如自监督深度估计)适应动态环境。所有方案均通过ASIC/FPGA原型验证,支持从毫米波雷达到单目相机的多模态传感器融合。
通过对比立体视觉、单目视觉与传感器融合三种方案,研究发现AI增强型单目深度估计在移动平台最具潜力。例如Im等人设计的传感器融合SoC芯片,结合ToF(飞行时间)传感器与单目相机,通过共轭梯度法实现深度图尺度校正,在84.9毫瓦功耗下完成42.4帧/秒的3D边界框提取。这表明柔性硬件架构可依据应用场景(如手势识别需短距离感知,SLAM需长距离探测)动态调整数据采集模式。
针对点云、体素与栅格三种数据表征的加速器展现出互补优势。点云神经网络(PNN)通过最大池化聚合局部特征,但大规模点云预处理开销巨大;体素化3D卷积神经网络(CNN)虽提升内存访问效率,却会丢失细小物体细节。Lim等人开发的栅格神经网络加速器采用虚拟栅格与四叉树工作量管理,在0.855瓦功耗下实现44.2帧/秒的鸟瞰图(BEV)检测,印证了混合架构的潜力。
手势姿态估计与手势识别分别面向高精度交互与低功耗指令检测。Im团队设计的专用芯片通过窗口化点采样架构,将21个手部关节点估计延迟压缩至4.45毫秒,误差仅8.24毫米;而Lu等人的手势识别芯片则利用双向卷积引擎,在181微瓦超低功耗下支持30种动态手势识别。这为AR/VR设备提供了"手势触发系统功能+姿态控制虚拟物体"的双模交互方案。
特征基与渲染基SLAM的对比揭示不同应用场景的优化方向:Jung等人的LiDAR SLAM处理器通过k-NN聚类优化内存访问,实现0.35瓦功耗下的48帧/秒位姿跟踪;而Park团队的NeRF-SLAM芯片采用稀疏专家混合(SMoE)模型,将神经辐射场压缩60倍,在0.3瓦功耗下完成32.9帧/秒的实时稠密建图。
神经渲染领域呈现三足鼎立格局:NVIDIA的DLSS(深度学习超采样)通过光线重建提升传统光追效率;NeRF加速器如Ryu团队的NeuGPU芯片采用分段哈希架构,实现73.5帧/秒实时渲染;3D高斯泼溅(3DGS)则通过高斯图块相交单元削减冗余计算,Feng等人的芯片在0.66瓦功耗下达373帧/秒。
该研究证实AI加速器将成为未来3D空间计算SoC的核心组件。通过统一架构支持多模态数据表征(如HashNeRF与3DGS的融合),结合动态资源分配机制,可实现在移动端承载电影级渲染质量的突破。然而,传感器功耗(如Intel RealSense L515相机超3瓦)仍是系统瓶颈,后续需通过多相机融合与在线学习进一步优化。这项工作为元宇宙、自主机器人等应用提供了从算法到芯片的完整技术蓝图,标志着空间计算进入软硬件深度协同的新纪元。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号