面向SNN片上无监督学习的免恢复存取可转置eDRAM存内计算系统

《IEEE Access》:Restoring-Free Transposable eDRAM-Based Computing-In-Memory System for SNN On-Chip Unsupervised STDP Learning

【字体: 时间:2025年11月27日 来源:IEEE Access 3.6

编辑推荐:

  本文针对传统冯·诺依曼架构在脉冲神经网络(SNN)硬件实现中存在的数据搬运瓶颈和能效低下问题,提出了一种基于嵌入式动态随机存取存储器(eDRAM)的存内计算(CIM)系统。研究人员通过设计新型可转置3T-1C eDRAM单元、实现免恢复存取机制、开发低功耗灵敏放大器以及构建混合信号泄漏积分发放神经元(LIF_BL),成功实现了高能效的片上无监督脉冲时序依赖可塑性(STDP)学习。该处理器在28纳米CMOS工艺下实现了89.4%的MNIST识别准确率,能耗仅0.15 nJ/像素,为神经形态计算硬件设计提供了创新解决方案。

  
随着人工智能技术的快速发展,神经网络在图像分类、语音识别等复杂任务中展现出卓越性能。其中,脉冲神经网络(SNN)因模仿生物神经元和突触的工作机制,具有事件驱动、异步处理和低功耗等优势,成为类脑计算的研究热点。特别是其支持脉冲时序依赖可塑性(STDP)等片上无监督学习算法,更接近生物大脑的学习方式。然而,传统冯·诺依曼架构将存储与计算分离,导致数据频繁在内存和处理器间搬运,产生巨大的功耗开销,严重限制了SNN硬件的能效和性能表现。
为突破这一瓶颈,存内计算(CIM)架构应运而生。它将计算单元嵌入内存阵列中,大幅减少数据移动,实现并行处理。但目前主流的CIM方案仍面临诸多挑战:静态随机存取存储器(SRAM)基单元面积大、集成密度低;新兴存储器(如MRAM/ReRAM)与标准CMOS工艺兼容性差;模数转换器(ADC)带来显著的面积和功耗开销;以及突触权重更新效率低等问题。
针对这些挑战,韩国仁荷大学的研究团队在《IEEE Access》上发表了创新性研究成果。他们开发了一种基于嵌入式动态随机存取存储器(eDRAM)的CIM系统,专门用于SNN的片上无监督STDP学习。该研究通过多项关键技术突破,实现了面积效率和能量效率的显著提升。
研究团队主要采用了四个关键技术方法:首先设计了可转置3T-1C eDRAM单元结构,支持行列双向访问;其次利用STDP算法的读-计算-写序列实现免恢复存取机制;然后开发了低偏移灵敏放大器,支持学习和刷新两种操作模式;最后提出了LIF_BL混合信号神经元方案,通过减法计数方法替代传统ADC。实验基于28纳米CMOS工艺实现,使用MNIST数据集进行评估,包含576个突触前神经元和400个突触后神经元的全连接网络架构。
III. 基于3T1C eDRAM的CIM宏设计
研究人员提出的3T-1C eDRAM单元结构巧妙解决了传统设计中存在的潜通路电流和数据恢复问题。与传统1T-1C eDRAM的破坏性读取不同,该设计在CIM模式下支持行向累积操作,在存储模式下支持列向读取和写入。
特别值得注意的是,通过利用STDP学习中的即时权重更新特性,该设计实现了免恢复存取,即在读取后立即写入新计算的权重值,避免了传统eDRAM必需的数据恢复操作,从而节省了27%的能耗。
IV. 系统实现与结果分析
在神经元实现方面,研究团队创新性地提出了LIF_BL混合信号神经元方案。
该方案通过简单的电压减法和数字计数相结合的方法,有效扩展了膜电位的表示范围,避免了传统设计中因电源电压限制导致的信号 margin 和线性度下降问题。当LIF_BL电压超过参考电压时,减法模块会激活并进行电压减法操作,同时数字计数器记录减法次数,从而在混合信号域中实现膜电位的精确表示。
针对工艺变化带来的挑战,研究人员还设计了过程追踪减法模块,通过二进制加权nMOS晶体管和线性搜索方法,确保在不同工艺角下都能实现可靠的电压减法操作。
在保持时间优化方面,通过大量蒙特卡洛仿真确定了120μs的最佳刷新周期,在保证分类准确率损失仅0.3%的同时,实现了性能与精度的良好平衡。
系统架构上,该SNN处理器采用模块化设计,将整个突触阵列划分为10个Tile,每个Tile包含4×3个eDRAM CIM存储体,支持400个突触后神经元的并行处理。
权重更新模块(WUM)负责执行基于非脉冲抑制(NSD)的随机STDP算法,通过伪随机数生成和概率比较,决定权重是增强、减弱还是保持不变。
实验结果与性能对比
硬件实现结果表明,该处理器在28纳米工艺下占用面积为0.57mm2,其中eDRAM突触阵列占据50.7%的面积。
能量消耗分析显示,处理每个输入脉冲序列平均需要1270个周期,学习模式下的能耗为0.15 nJ/像素,其中CIM宏仅占总能耗的28.85%。
在准确率评估方面,研究人员充分考虑了硬件非理想因素,包括器件变化、位线累积非线性和比较器偏移等。
蒙特卡洛仿真显示,位线累积电压与数字MAC结果之间具有良好的线性关系,标准偏差平均为平均电压的5.08%。在充分考虑这些因素后,该系统在MNIST数据集上实现了89.4%的分类准确率。
与现有技术相比,该研究在多个性能指标上表现出色:学习能效达到0.15 nJ/像素,学习操作效率为11.39M FPS/W,面积效率为348.08k FPS/mm2,均优于此前报道的SRAM、MRAM和数字CMOS等实现方案。
结论与展望
本研究通过创新性的eDRAM基CIM架构,成功解决了SNN硬件实现中的多个关键问题。可转置3T-1C eDRAM单元在保证高存储密度的同时,支持行列双向访问;免恢复存取机制显著提升了学习能效;混合信号神经元方案有效消除了ADC开销;而过程追踪减法模块则确保了系统的鲁棒性。这些技术共同构成了一套完整的高效能SNN片上学习解决方案。
该研究的重要意义在于为神经形态计算硬件设计提供了新思路,特别是在边缘计算和物联网设备等能效敏感场景中具有广阔应用前景。eDRAM与标准CMOS工艺的良好兼容性,也为该技术的实际部署奠定了基础。未来工作可进一步探索多比特权重精度扩展、更大规模网络集成以及更复杂学习算法的硬件实现,推动神经形态计算技术的实际应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号