"中国人距离生命科学的世界前沿有多远?从此向西十米向左看吧!"
2月12日,被称为生物学的"元素周期表"的"人类基因组"图谱正式公布,举世瞩目。
作为人类基因组计划(HGP)的参与国,中国科学院遗传所人类基因组中心与国家人类基因组南方中心和北方中心共同承担了国际人类基因组大规模任务的1%,即3号染色体短臂从D3S3610至端粒的30Mb区域上3000万个碱基对的测序任务,是参与此项计划的唯一发展中国家。
作为中国基因测序的主要基地,北京华大基因研究中心成了媒体追逐的对象。
2月14日,记者进入了这个"神秘"的基地。在华大三楼,墙上写着这样的一行字。
向西十米,向左看,是一排排的基因测序仪,就是这些机器,承担了中国的人类基因组的测序任务。
再往西十米,是生物信息中心。就是在这里,每天把基因测序所产生的超巨量信息用巨型计算机,曙光2000、3000,进行处理、分析,然后把有效的信息反馈给生物学家,以研究哪些基因可造福于人类。
在上百万个鱼龙混杂的DNA中寻找十二个真正的基因,其难度可想而知,这对于目前的计算机软硬件来说实在是一项"难以完成的任务"。高性能计算从基因的幕后浮出海面,开辟了一块新的战场。
业界预计基因公司年收入增长将高达100%,而在信息技术上的花费将与之持平甚至超出。
曙光2000"不堪重负"
由于科研的需要,同为"国家高性能计算中心"的华大现在所使用的曙光2000(曙光3000尚未正式应用)是国内最先进的民用高性能计算机。曙光2000造价是2500万人民币,即将使用的曙光3000是国家重点科研项目,全国一共有三台,华大就一下子订购了其中的两台。
另外,国内还有其它两个系列的高性能计算机,分别是神威、银河。
华大信息中心副主管孙健冬告诉记者,因为要处理基因测序所产生的非常巨量的信息,生物信息中心要使用高性能的计算机。"也许我们对数据运算量及精度、速度的要求没有模拟核试验那么高,但我们更突出的是信息的吞吐量高。"包括华大在内的基因研究机构对IT技术有着共同的需求,包括快速的处理器、保证处理器和内存可扩展性的体系结构、超大的存储系统、基于Web的访问和提交能力及强劲可靠的操作系统。
曙光2000计算机已超负荷运转,孙健冬称,"曙光2000在其它领域可能会运转地很正常,但在华大已经不堪重负。"据透露,2月17日,曙光3000通过验收,在3月20日将运到。曙光3000的硬盘是2T(2000G),能至少装载64个CPU。而这也顶不了多少,信息中心的理想配置是20T。
在华大另一位负责人王俊看来,生命科学是迄今为止对高性能计算要求最高的一个领域。就拿曙光来说,曙光2000只能进行细菌、藻类的基因测序,曙光3000则能测超级杂交水稻,若是测猪的基因,则进一步要求3000以上的机型。
国产有差距
目前,在基因的研究和高性能计算应用中,包括曙光2000在内的国产大型机实际上和国外最先进的同类机器差距还是很大的。
首先,曙光的几乎所有硬件都是来自进口,尤其是CPU等关键部位。要弥补这个差距,就要依靠"中国芯"产业的迅速发展。
而具体到生命信息学领域,国外的IT业已经做了比较大的专项投入,比如康柏特意为生物基因的某一个算法定制了专门的高性能计算机,IBM也生产了Blue Gene。在中国,这似乎尚为空白。
"这也是我们用国产曙光的原因之一",孙健冬接着说,"正因为高性能机在我们的研究中会遇到许多新的问题,我们才选择曙光。有新的问题就有新的改进,这也是两个产业很好的结合点。如果说我们能促进计算机产业的发展,为什么不促进民族计算机产业呢?"
这是一种责任感。"在基因组这方面我们或许不再落后于世界,但在IT业依旧落后于国外同行。我们是不是有责任尽自己的微薄之力呢?"
康柏是赢家
2000年6月26日,首张人类基因组草图问世,IT技术在其中起到了重要的关键性作用。《财富》杂志指出,人类基因组草图的竞赛已经结束,康柏是真正的赢家,至少从计算能力的角度来说是这样。
时至今日,完成人类基因草图绘制的三个重要参与者塞莱拉公司、Sanger中心、怀特研究院都无一例外地选择康柏作为唯一的IT合作伙伴。后两者采用的是同样的计算平台:康柏StorageWorks + 康柏Tru64 UNIX操作系统+康柏TruCluster服务器软件+康柏AlphaServer系统。
记者从康柏中国得知,自90年代初人类基因工程启动以来,康柏一直在为各个研究机构提供各种工具,用以处理对32亿个碱基对进行解码所必需的数量惊人的数据和强大的计算动力。
不仅如此,1999年康柏在马萨诸塞州创立了生物信息专门技术中心;2000年10月,康柏宣布将向基因、生物信息及相关市场处于启动阶段的生命科学公司投资1亿美元。"人类基因组排序工作是一件具有革命性意义的大事,康柏已经整装待发。"康柏Alpha技术部副总裁Jesse Lipcon说。
揭开人类基因的秘密,IT功不可没,国产高性能机也做出了应有的贡献。试看来日生命科学领域,将是谁家之天下?
曙光光荣榜
曙光2000每台近两米高,一米多宽。在众多个人电脑面前,它几乎是一个巨型"恐龙"。
对于内存来说,曙光2000一共有4个节点,每个节点带2G的内存,一共是16G内存(16000兆),而目前市场上最普遍的PC内存也就256兆而已。曙光2000的峰值运算速度是3000亿次/秒。
华大信息中心一天的信息产出量就有20G(这个数据令人振奋,在国外基因研究中最领先的塞莱拉公司,其日数据产生量也不过如此),这20G的原始数据再加以拼接、处理的话,整个量极其惊人。
另一个令人振奋的消息:于2月17日签定验收的曙光3000超级服务器系统,最高浮点运算次数达到每秒4032亿次,其1/16的设备每天就能进行80亿次以上的页面点击,1/35的设备每天就能进行7000万次的Email服务。
ZDNet 和 CNET 科技资讯网是CNET Networks公司注册服务商标。CNET 科技资讯网 标识是 CNET Networks公司注册服务商标。