| 两大巨头快马扬鞭加速超级计算机系统开发 | |||
| http://www.cnele.com 更新时间:2007年03月02日 来源:电子工程专辑 | |||
| 【收藏此页】【大 中 小】【E-mail给朋友】【打印此文】【关闭窗口】 | |||
Cray和IBM被选中承担由美国国防部高级研究项目处(Darpa)主持的高效能计算系统(HPCS)项目的第三阶段工作,Cray和IBM将分别获得2亿5千万美元和2亿4千4百万美元,二者需要在2010年开发出原型系统。 两个原型必须设法达到每秒超过一千万亿次浮点运算(petaflops)的速度,并将应用程序调试时间提升至了2002年HPCS项目刚开始时的10倍。Cray和IBM这两个合同赢家还必须拿出一份商业计划,向Darpa官员展示如何为政府和商业用户开发基于该原型的系统。 “这里关键是提供新的运算水平。谁都可以提供大型系统,但并不是每个系统都能够真正发挥作用。”Darpa的HPCS项目经理William Harrod指出。 时下,超级计算机的性能通常利用Linpack基准上的原始CPU性能进行衡量,Top500列表在对全球运算能力最强的计算机排名时也采用了相同的方法。HPCS项目划分得更细,共有7个基准,包括Linpack以及对系统带宽与存储能力的测量。 Cray和IBM的超级计算机将在CPU原始性能上较现有设备有显著提高,不但如此,新研制的机器还有望在其它方面发生巨大飞跃,例如面向大规模系统的软件开发和接口更简单,以及软件能够从硬件故障中迅速恢复等。 IBM的Blue Gene/L系统目前在Top500名单中名列第一,其每秒钟的浮点运算运行次数超过200万亿次(teraflops),而HPCS机器的速度将达到2-4 petaflops。如果以每秒的千兆位(gups)更新,或系统对存储器的随机更新速度来衡量,那么新机器能够达到8,000-64,000gups,而Blue Gene/L只能达到35gups。 “新的测量基准组已经引发了众多关注。”田纳西大学研究员Jack Dongarra表示。Dongarra是Top500名单的作者之一,还曾经协助开发HPCS基准组。 该基准网站(http://icl.cs.utk.edu/hpcc/)目前列出了以新基准组为标准进行测试的137个系统的性能表现。美国国家科学基金会(NSF)计划花2亿美元购买一个petaflops级系统,其在近日的意见征求中也引用了新基准。 新基准套件不会被用于系统评级。但是研究人员目前计划增加一套工具,来扩大套件的使用范围,使用户能够对7个子基准进行权衡,从而创建最适合其应用需求的定制测试。 Dongarra之所以对HPCS项目大加赞赏,原因在于过去10年,政府已经为高性能运算投入了超过10亿美元,HPCS项目已经开始产生巨大影响。 “然而,大部分资金都投入到了产业界,”Dongarra指出,“理论计算研究没能获得更多资金是一件让人遗憾的事,因为我们需要资金建立计算中心,并吸引那些有望成为该领域下一代领军人物的学生加入进来。” 去年11月,作为合约的第一笔支出,Cray和IBM分别获得了2,500万和1,220万美元。剩余资金将在二者获得突破性进展时依次支付。这些突破性进展包括,18个月内进行的一次软件设计评审、30个月内的硬件评审、2009年年末完成的子系统原型设计,以及2010年实现的四分之一规模大小的系统原型。 “该协议是美国政府在下一代超级计算机上最大的投资之一,同时也是高性能计算领域最受关注的采购行为之一。”Cray公司CEO Peter Ungaro指出,“我们现在正在谈论一套系统,其运算能力有望超过10petaflops。” 这场竞争的获胜对Cray公司而言无异于一道曙光,该公司之前的日子并不好过。2005年6月底,Cray裁员10%(约90名员工)。许多员工虽然没有被裁掉,但是薪水却在不断降低。“如果没有赢得这个合同,很难讲Cray是否能撑过来。”Dongarra表示,“但他们在该领域的专注程度确实比过去要强得多。” “这份合约有助于我们维持极高的研发投入比例,就像前些年那样。”Ungaro透露。 对每年研发预算在20亿美元的Sun而言,失败带来的影响并不是很大。但是尽管如此,自从互联网泡沫之后,Sun同样也在为保持盈利而努力。 Sun最近与日本和德州大学奥斯汀分校分别签署了几笔很大的超级计算机合约,同时它在整个服务器领域的市场份额也有所增加,与其竞争对手戴尔相差不足一个百分点。如今服务器市场的前三甲分别是:IBM、惠普、戴尔。 Sun针对超级计算机而开发的编程语言Fortress,属于HPCS正在评估的一部分内容。此外,Sun也在继续研究硅光学和一种新的容性耦合芯片互连方法Proximity。这两种技术都是HPCS项目第三阶段提议中的内容。 “我们将继续投资Proximity,因为其在板级模块和高速开关方面很有价值。HPCS系统真正出现还需要4年的时间,我相信在此之前,大家就能看到采用Proximity技术的产品。”Sun公司负责HPCS项目的一位研究经理Jim Mitchell表示。 为了真正达到Proximity技术所承诺的2纳秒芯片互连速度,能否找到一种低成本却可靠的方式,从而精确排列容性焊盘则是一个很大的障碍,Mitchell补充道。 快速迈向petaflops 2010年HPCS可能不会成为首次突破petaflops关口的系统,因为另有两个系统已经计划于2008年完成,而这项殊荣很有可能会被其中一个抢先获得。 IBM正在努力开发其首款超级计算机系统,其中不仅采用了自己的Cell处理器,还选用了AMD的Opteron CPU。该系统代号Roadrunner,将被部署在美国Los Alamos国家实验室内。“为这样一个混合系统编程需要进行庞大的工作。在这样的组合中如何使用Cell处理器还不甚明朗,所以目前还有许多问题有待解决。”Dongarra说。 Cray在美国Oak Ridge国家实验室部署的另一套系统,也极有可能成为首台处理速度达到petaflops的机器,他指出。 IBM对于其HPCS提议的细节一直口风很紧,他们只透露该系统基于Power7微处理器、AIX操作系统,以及通用并行文件系统(GPFS)。IBM负责高性能计算的副总裁Anthony Befi透露,该系统的CPU将加强浮点功能,而且在裸片上会集成某种形式的连接。 相比之下,Cray对于其向Darpa计划提议的Cascade系统则比较坦率。Cascade本质上是一个能在单系统中提供包括标量、FPGA和混合矢量/超级多线程(MMT)处理器板卡的机箱内集群(cluster-in-a-box)。 Cascade将采用Opteron/Linux板卡来处理所有系统服务,并将担当应用处理器角色。这块新板卡将基于混合ASIC,能在矢量处理和MMT两种模式间在线转换。Cray希望为Cascade设计一款基于其XD1系统的FPGA加速板卡。 Cascade中最难的创新是开发编译器软件,该软件仅需要编程人员进行极少控制,就能处理多种涉及标量、矢量或MMT应用的混合任务。 作者: 麦利
|
|||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

