
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于RISC-V架构的带状矩阵BLAS算法性能优化研究
【字体: 大 中 小 】 时间:2025年06月11日 来源:Future Generation Computer Systems 6.2
编辑推荐:
针对RISC-V处理器在高性能计算(HPC)领域缺乏优化数学库的问题,研究人员聚焦OpenBLAS中带状矩阵操作的BLAS算法,通过改进向量化策略(RVV 0.7.1/1.0指令集)实现1.5x-10x加速,为RISC-V生态的HPC应用奠定基础。
随着RISC-V指令集架构的快速发展,其在高性能计算(HPC)领域的潜力备受关注。然而,当前RISC-V生态面临关键挑战:缺乏针对性的高性能数学库支持,尤其在基础线性代数子程序(BLAS)等核心算法上,移植自x86架构的代码难以充分发挥RISC-V硬件特性。以带状矩阵操作为例,这类算法在计算流体力学(如Navier-Stokes方程求解)、连续介质力学等领域应用广泛,但其在RISC-V平台上的性能显著落后于x86解决方案。如何通过深度优化填补这一空白,成为推动RISC-V进入HPC领域的关键问题。
为此,俄罗斯下诺夫哥罗德国立大学(Lobachevsky University)的研究团队Anna Pirova等人开展了针对RISC-V处理器的BLAS算法优化研究。他们选取OpenBLAS库中四种带状矩阵操作(包括三角带状矩阵的SLAE求解等)作为靶点,通过重构矩阵遍历顺序、利用RVV(RISC-V Vector)指令集的向量寄存器分组技术,在Lichee Pi 4A(RVV 0.7.1)和Banana Pi BPI-F3(RVV 1.0)设备上实现了1.5倍至10倍的性能提升。相关成果发表于《Future Generation Computer Systems》,为RISC-V生态的HPC能力建设提供了重要参考。
关键技术方法包括:1)基于RVV 0.7.1/1.0指令集的手动向量化优化;2)将元素级遍历改为对角线优先策略以提升向量化效率;3)使用Lichee Pi 4A(T-Head C910核心)和Banana Pi BPI-F3硬件平台进行跨指令集验证;4)与OpenBLAS基线版本进行性能对比测试。
研究结果
Related work
系统梳理了BLAS标准发展史及现有优化方案,指出RISC-V平台缺乏针对带状矩阵的深度优化实现。
Methodology of selecting algorithms for optimization
通过性能分析筛选出OpenBLAS中带状矩阵操作的瓶颈函数,发现编译器对RVV 0.7.1自动向量化能力不足,需手动优化。
Infrastructure
实验采用两种RISC-V开发板:Lichee Pi 4A(峰值双精度浮点性能14.8 GFLOPS)和Banana Pi BPI-F3,分别测试RVV 0.7.1与1.0指令集下的优化效果。
Conclusion
优化后的算法通过对角线遍历策略显著提升向量化效率,其中三角带状矩阵SLAE求解性能提升最高达10倍,证实RISC-V向量扩展在HPC应用的潜力。
该研究首次系统验证了RISC-V向量指令集在带状矩阵计算中的优化路径,其创新性体现在:1)提出适用于RISC-V的矩阵遍历策略;2)揭示RVV 1.0自动向量化与手动优化的性能差异;3)为后续BLAS库开发提供可复用的技术模板。作者在讨论中指出,尽管当前RISC-V处理器在内存密集型任务上仍逊色于x86架构,但通过软件-硬件协同设计(如寄存器分组技术)可逐步缩小差距。这项成果不仅加速了RISC-V在科学计算领域的实用化进程,也为其他数学库的移植优化提供了方法论指导。
生物通微信公众号
知名企业招聘