面向低功耗AI的近似计算与存内计算架构创新——IEEE电路与人工智能系统汇评2025年第四期综述
《IEEE Transactions on Circuits and Systems for Artificial Intelligence》:2025Q4 Issue of the IEEE Transactions on Circuits and Systems for Artificial Intelligence
【字体:
大
中
小
】
时间:2025年11月27日
来源:IEEE Transactions on Circuits and Systems for Artificial Intelligence
编辑推荐:
本期IEEE TCASAI推荐六项前沿研究:针对DNN功耗瓶颈,研究者通过近似计算(TransAxx)、存内计算(HASTILY、AFib芯片)、2.5D异构互联(InDenT)及微型机器人(FAVbot)等硬件-软件协同设计,实现ViT/BERT模型能效提升4.4-36倍、AFib检测精度达99.5%,推动低功耗AI芯片在医疗、边缘计算等场景落地。
随着人工智能技术在医疗诊断、自动驾驶和边缘计算等领域的深入应用,深度神经网络(DNN)模型尤其是Transformer架构的算力需求呈指数级增长,这对硬件能效提出了严峻挑战。传统基于CMOS工艺的通用处理器在执行大规模矩阵乘法和注意力机制时面临内存墙和功耗墙的双重制约,难以满足实时性、低功耗的应用需求。特别是在心电图(ECG)实时监测、微型机器人自主导航等场景中,既要保证高精度推理,又需严格限制能耗与体积,现有技术方案往往捉襟见肘。
为解决上述问题,2025年12月出版的《IEEE Transactions on Circuits and Systems for Artificial Intelligence》集中报道了六项创新性研究,从近似计算、存内计算、异构集成等角度探索硬件级优化路径。这些工作通过算法-硬件协同设计,在保持模型性能的同时显著提升能效,为低功耗人工智能芯片的发展提供了重要技术支撑。
关键技术方法包括:1)基于蒙特卡洛树搜索(MCTS)的近似乘法器自动设计(TransAxx);2)压电频率调控的微型机器人多向运动机制(FAVbot);3)2.5D封装中可重构有线/无线互联的动态调度策略(InDenT);4)基于柔性衬底的模拟存内计算(CIM)分类芯片设计(AFib检测器);5)SRAM阵列内集成查找与乘加运算的软硬件协同加速器(HASTILY);6)印刷三值神经网络(TNN)的多目标优化框架。其中AFib检测研究使用了Physionet、梅奥诊所前瞻性临床数据集进行验证。
通过PyTorch框架系统评估近似乘法器对视觉Transformer(ViT)精度的影响,结合近似感知微调技术补偿计算误差。采用MCTS搜索最优近似配置,在CIFAR-10数据集上实现功耗降低47%时仅损失0.3%分类精度。
集成卷积神经网络(CNN)视觉处理与压电共振致动机制,在3cm3体积内实现目标跟踪。实验表明单执行器可完成多向运动,功耗较传统电磁驱动降低80%。
InDenT:面向稠密Transformer的2.5D异构系统
通过存内计算(IMC)单元与CMOS逻辑的异构集成,结合封装级有线/无线链路动态重构,在BERT模型推理中较现有2.5D系统降低39.32%通信延迟。
采用65nm柔性衬底工艺集成14位ADC、时域特征提取器与开关电容存内计算神经网络,在58.3μJ/推理功耗下达到99.5%临床识别准确率。
通过统一计算查找模块(UCLM)将softmax运算映射至SRAM阵列,使用细粒度流水线与并行归约策略,将注意力复杂度从O(n2)降至O(n)。在INT8量化BERT上较A40 GPU提升9.8倍吞吐量。
采用全流程近似与多目标优化,实现印刷神经网络面积缩减7倍、功耗降低59倍,首次支持电池驱动且精度损失<5%。
研究结论表明,硬件原生AI设计可通过跨层次优化突破传统架构瓶颈。近似计算与存内计算的结合为边缘侧Transformer部署提供新范式,而柔性电子与微型化集成技术则拓展了生物医疗与微纳机器人领域的应用边界。这些成果标志着人工智能硬件正从通用加速向场景定制化深度演进,为下一代低功耗智能系统奠定基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号