基于RISC-V架构的带状矩阵BLAS算法性能优化研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月11日 来源：Future Generation Computer Systems 6.2

编辑推荐：

　　针对RISC-V处理器在高性能计算（HPC）领域缺乏优化数学库的问题，研究人员聚焦OpenBLAS中带状矩阵操作的BLAS算法，通过改进向量化策略（RVV 0.7.1/1.0指令集）实现1.5x-10x加速，为RISC-V生态的HPC应用奠定基础。

随着RISC-V指令集架构的快速发展，其在高性能计算（HPC）领域的潜力备受关注。然而，当前RISC-V生态面临关键挑战：缺乏针对性的高性能数学库支持，尤其在基础线性代数子程序（BLAS）等核心算法上，移植自x86架构的代码难以充分发挥RISC-V硬件特性。以带状矩阵操作为例，这类算法在计算流体力学（如Navier-Stokes方程求解）、连续介质力学等领域应用广泛，但其在RISC-V平台上的性能显著落后于x86解决方案。如何通过深度优化填补这一空白，成为推动RISC-V进入HPC领域的关键问题。

为此，俄罗斯下诺夫哥罗德国立大学（Lobachevsky University）的研究团队Anna Pirova等人开展了针对RISC-V处理器的BLAS算法优化研究。他们选取OpenBLAS库中四种带状矩阵操作（包括三角带状矩阵的SLAE求解等）作为靶点，通过重构矩阵遍历顺序、利用RVV（RISC-V Vector）指令集的向量寄存器分组技术，在Lichee Pi 4A（RVV 0.7.1）和Banana Pi BPI-F3（RVV 1.0）设备上实现了1.5倍至10倍的性能提升。相关成果发表于《Future Generation Computer Systems》，为RISC-V生态的HPC能力建设提供了重要参考。

关键技术方法包括：1）基于RVV 0.7.1/1.0指令集的手动向量化优化；2）将元素级遍历改为对角线优先策略以提升向量化效率；3）使用Lichee Pi 4A（T-Head C910核心）和Banana Pi BPI-F3硬件平台进行跨指令集验证；4）与OpenBLAS基线版本进行性能对比测试。

研究结果
Related work
系统梳理了BLAS标准发展史及现有优化方案，指出RISC-V平台缺乏针对带状矩阵的深度优化实现。

Methodology of selecting algorithms for optimization
通过性能分析筛选出OpenBLAS中带状矩阵操作的瓶颈函数，发现编译器对RVV 0.7.1自动向量化能力不足，需手动优化。

Infrastructure
实验采用两种RISC-V开发板：Lichee Pi 4A（峰值双精度浮点性能14.8 GFLOPS）和Banana Pi BPI-F3，分别测试RVV 0.7.1与1.0指令集下的优化效果。

Conclusion
优化后的算法通过对角线遍历策略显著提升向量化效率，其中三角带状矩阵SLAE求解性能提升最高达10倍，证实RISC-V向量扩展在HPC应用的潜力。

该研究首次系统验证了RISC-V向量指令集在带状矩阵计算中的优化路径，其创新性体现在：1）提出适用于RISC-V的矩阵遍历策略；2）揭示RVV 1.0自动向量化与手动优化的性能差异；3）为后续BLAS库开发提供可复用的技术模板。作者在讨论中指出，尽管当前RISC-V处理器在内存密集型任务上仍逊色于x86架构，但通过软件-硬件协同设计（如寄存器分组技术）可逐步缩小差距。这项成果不仅加速了RISC-V在科学计算领域的实用化进程，也为其他数学库的移植优化提供了方法论指导。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号