-
生物通官微
陪你抓住生命科技
跳动的脉搏
为人工智能制造的处理器加速了基因组组装
【字体: 大 中 小 】 时间:2023年11月08日 来源:AAAS
编辑推荐:
最初为人工智能操作开发的硬件加速器成功加快了蛋白质和DNA分子的排列速度,使这一过程比最先进的方法快10倍。
最初为人工智能操作开发的硬件加速器成功加快了蛋白质和DNA分子的排列速度,使这一过程比最先进的方法快10倍。
这种方法可以更有效地将蛋白质序列和DNA对齐以进行基因组组装,这是计算生物学中的一个基本问题。
康奈尔大学计算机科学助理教授Giulia Guidi领导了一项研究,利用现有的DNA和蛋白质序列数据,测试这种被称为智能处理单元(IPU)的加速器的性能。IPU通过提供更多内存来加速数据移动(一种常见的阻塞)来加速对齐过程。
“序列比对基本上是任何计算生物学工作量中极其重要和计算密集型的一部分,”Guidi说。“这是非常常见的,通常是计算的瓶颈之一。”
这项研究将由共同第一作者Luk Burchard在11月14日的Supercomputing2023会议上发表。Luk Burchard曾是康奈尔大学的访问学者和Simula研究实验室的博士生。Max Xiaohang Zhao现就职于慈善基金会(charity) Universit?tsmedizin,也是本文的共同第一作者。
在她的研究中,Guidi希望帮助科学家解决他们甚至还没有尝试过的问题,因为这些问题需要大量的计算能力。这些复杂的问题需要大规模的计算——可以处理大型计算任务的处理器、内存、网络和数据存储的集合。
DNA或蛋白质序列的排列就是其中一个复杂的问题。当对基因组进行测序时,生物学家最终会得到数千或数百万个短DNA序列,这些序列必须像拼图一样组合在一起。他们使用一种算法来识别重叠的序列对,然后将它们连接起来。
在过去的十年里,科学家们已经转向图形处理单元(gpu)——最初是为了加速视频游戏中的图形渲染而开发的——通过并行运行计算来加速序列对齐。随着AI应用的ipu的发展,Guidi和她的同事想知道他们是否可以利用新的加速器来解决这个问题。
“许多科学领域对大规模计算的需求正在增长,因为我们现在比以往任何时候都更擅长生成数据。并行计算从奢侈品变成了不容商榷的东西。”
ipu吸引Guidi是因为它们有大量的设备带宽用于传输数据,并且可以处理不均匀和不可预测的工作负载。X-Drop是一种流行的序列对齐算法,它的计算模式非常不规则。当两个序列匹配时,算法需要大量的计算来确定正确的对齐方式,但当它们不匹配时,算法就会停止。gpu很难处理这种不规则计算,但IPU表现出色。
当Guidi的团队在IPU的帮助下组装模式生物大肠杆菌和秀丽隐杆线虫的序列时,他们获得了比GPU快10倍的性能,比超级计算机上的中央处理器(CPU)快4.65倍。GPU在传输不必要的数据上花费了太多时间。
目前,限制科学家可以处理的基因组大小的是可用的IPU和GPU设备的数量,以及主机CPU和硬件加速器之间数据传输的带宽。IPU上有很多内存,但是从主机传输数据会造成很大的瓶颈。
该团队通过将X-Drop算法的内存占用缩小55倍来帮助解决这个问题。这使它能够在IPU上运行,并减少从CPU传输的数据量。因此,系统可以在IPU上运行更大的比较并执行更多的序列比较,这有助于平衡不均衡的工作负载。
“你可以利用IPU的高内存带宽,使整个处理过程更快。”
如果供应商可以升级CPU和IPU之间的数据传输过程,并改善软件生态系统,Guidi希望她可以在相同的IPU上处理更大的基因组。
“IPU可能会成为下一个GPU,”她说。