-
生物通官微
陪你抓住生命科技
跳动的脉搏
应对基因组信息风暴 NuTec 开发新一代超级计算机
【字体: 大 中 小 】 时间:2001年12月01日 来源:
编辑推荐:
截至本月底Genbank已经存有一百五十四亿个以上的基因序列数据在数据库中供研究检索http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Nucleotide
这是一个庞大的数据库集成。虽然用户可以通过BLAST搜索服务器用很短的指令来命令计算机在整个数据库中寻找出与与基因或蛋白质相近的序列并深入的分析它,但是速度却是非常的慢,而且所需的计算机设备也不是一般使用者所负担得起的。诸如此类经由人体中一个小小的遗传因子线索而必须要去搜寻整个基因数据库所遇到的问题,NuTec科技集团已经了解到有必要发展运算更快速的计算机来解决这些有关基因分析所遭遇到的问题,而且整个系统是专为特定专业技术的取得而设计,并且是由大量的超级计算机联机到各生命科学研究部门,他们其实是在制造一台完全奉献给生命科学的巨大数据挖掘机。
这台生命科学超级计算机最后是由1250台IBM eServer p640 计算机组成,每台计算机本身就是一个四通路 (
4-way ) 的服务器,一共有5000个节点集合 ( node cluster ),将会有 2.5 兆字节 ( terabyte )
的内存和50兆字节的硬盘空间
,每一个节点集合由IBM的AIX控制系统所控制,拥有网络高频宽的能力,并且可用多样化的软件控制它的DB2数据库来提供服务。NuTec最大的优势之一是它拥有专利的信息传输环境
( message-passing environment )可以让他们调整服务器的规模,以恰好的处理器 ( processor )
来处理所给的问题。这样的好处是可以在机器还没有完全组好之前就可以上线工作。现在已经有四分之一的机器已经开始提供服务,另外还有四分之一已经在组装测试中。
或许将来最方便在这套超级计算机上运作的软件就是 PARASEQ,PARASEQ是一个建立在著名的PHRAP运算程序 (
PHRAP algorithm )上的序列组合程序 ( sequence assembly program ),虽然PHRAP本身并不容易以平行运算的方式来执行,而且也只能应用在一个节点,但是NuTec研发了一种称为“多节点平行封包”(
multi-node parallel wrapper ) 的程序可以让序列组合程序拥有平行运算的结构。PARASEQ实际上已经在休斯敦计算机上运作了快一年。
这套超级计算机系统的使用方式是秉持着“使用者付费”的原则,虽然它的强大功能看起来供大公司或是基因中心使用比为小团体服务使用还要适合,NuTec的Peter
Morrissey对序列组合技术提出他的看法,他认为真正的使用限制因素,不是想要组合的规模大小,而是公司内的计算机设备足够与否以及使用的便利性。他表示他们是在提供服务给客户,计价的合约是因案而异,他认为在许多基因公司和制药公司里还有很多他们潜在的客户可以来使用这套系统。
这套系统所遭遇到比较大但已经被平行运算解决的困难是基因的寻找 ( GeneSeeker )。NuTec的Peter
Morrissey描述说基因的寻找好象是对基因表现方式的多变量分析,是用统计学的方法来找出基因表现方式之间的关系还有发生的机率。而这个机率可以用来预测在你所想要观察的一组基因中,某些特定基因的转译模式。随着越来越多计算能力超强的计算机上线之后,大型的基因组合分析将变得不会那么困难。
一套现在正在研发的基因分类演译法,应该会在这一季结束前发表。除此之外,NuTec公司也努力的和其它的团体协商 (
其中有被提到的一间公司是专门研究基因结构学的 ) ,希望可以把他们拥有专利的演译法在NuTec的计算机上提供服务。有一套可以缩短临床和基因研究间距离的致癌基因研究工具也将在今年底提供出来给大家使用。但是很重要的是,这些可供利用的演译法都不应该凌驾在客户个人所喜欢的演译法之上,也就是说,基本上客户仍然可以在机器上执行他们自己的演译法。NuTec的工程人员也毫无疑问的一定会尽全力帮客户安装,并且帮他们把演译码最佳化。
除了发展像 PARASEQ和GeneSeeker这些可以把大型的问题分解成许多个小问题,以便让个别处理器就可以处理的演译码之外,NuTec对于桌上型计算机使用者的需要也不遗余力的付出。GLEAMS是一个微数组影像取得和处理
( microarray image acquisition and analysis )
的程序,SniPit提供使用者侦测和处理数据库的工具,SLIMS是一种利用相关数据库来管理所有实验室资料的数据库应用软件,而CHOMPS是一个可以让你自行创造或审查所有临床信息的临床实验工具。NuTec的桌上计算机应用软件同时也替实验者在将资料送上超级计算机运算之前提供了一个很好的整合方式
: 例如 GLEAMS所提供的资料可以直接在GeneSeeker中读取,致癌基因研究程序也可以直接在桌上型计算机和超级计算机中提供一样的功能。
一旦NuTec的这一套计算机系统完成之后,毫无疑问它将是现行超级计算机中最强的一台,每秒可以执行7.5兆个运算单元 (
teraflop )。IBM最近宣布一个预算达十亿美元的研究计划,预计在五年内建造一台称为蓝基因 ( BlueGene )
的超级计算机。计划中的速度将会比因为下棋赢了棋王而声名大噪的深蓝计算机 ( DeepBlue ) 速度快了一千倍。蓝基因将会是第一台运算速度达万兆次 (
petaflop – class ) 等级的超级计算机,且会被设计来专门应用在现今生物学上最困难的瓶颈 – 蛋白质的折叠问题 ( Protein folding
problem ) 上。当被问到蓝基因计算机的出现将会对NuTec的营运发生什么样的影响时,Morrissey表示,要说到蓝基因可能对NuTec所造成的影响,当蓝基因真的上线提供服务之后,将只能提供给研究蛋白质尖端技术的单位服务,因此这台计算机的出现只会增加我们已经拥有专利的软件的市场。听起来好象NuTec也不认为他们的计算机在蓝基因上线提供服务之前可以完全的帮研究者解决所有要解决的问题
– 但我相信他们会尽力去做。
Nutec公司详情见www.nutecsciences.com
(基因潮整理编辑〕