高性能计算:标准和应用是瓶颈

中国电子科技集团公司第五十二研究所    王英  杭州   310012

近年来,随着计算技术的突飞猛进,相对于小型机古老的计算模式,具有更高性价比的机群系统开始广泛普及,成为目前高性能计算的主流和未来趋势之一。而这之中,工业标准化机群与Unix机群之间又存在着激烈的竞争关系,代表了未来高性能计算不同的发展路线。未来,究竟谁会在高性能计算领域最终胜出还充满着不少的变数。为此,通过对厂商技术、产品、相关成功案例的介绍,使用户对于高性能计算的发展趋势及相关产品有比较深入地了解。

1 机群成为高性能计算发展方向  
    目前,高性能计算机的主流体系结构收缩成了三种,即SM、CC-NUMA、Cluster。在产品上,只有两类产品具有竞争力:一是高性能共享存储系统,如IBM690、SUN Enterprise15000、SGI Origin3800;二是工业标准机群,包括以IA架构标准服务器为节点的PC机群和以RISC SMP标准服务器为节点的RISC机群。当前,对高性能计算机产业中工业标准机群越来越显示出优势,这也反映了标准化在信息产业中的巨大杀伤力。工业标准机群采用量产的标准化部件构成高性能计算机系统,极大地提高了性能价格比,从科学计算开始逐渐应用到各个领域。其中,推动这一趋势形成的三个核心技术是Intel Xeon处理器、Linux操作系统和Myrinet互联网络。现在,搭建机群已变得轻而易举。高性能计算机群是一种由标准的软硬件计算机组件架设起来的大规模计算机群系统。虽然其成本只有超级计算机的10%,但其性能却接近甚至优于传统的超级计算机;不仅如此,高性能计算机集群还拥有极强的灵活性和可扩展性。

开放化、标准化已经成为IT技术应用的必然趋势,很多企业用户在搭建信息化平台之初选择了具有很好性价比、基于x86的工业标准服务器。工业标准服务器在IT基础架构、Web应用、邮件服务器及协同方面,表现出很大市场潜力。随着Windows Server 2003 R2的推出,微软也希望能够吸引更多用户转向Windows平台,帮助他们搭建“稳如磐石,多快好省”更胜一筹的现代企业信息基础架构。

著名的曙光公司认为机群的优势主要体现在:更高的性能价格比,机群系统目前已经成为高性能计算机的发展方向,世界上TOP500排行榜的高性能计算机系统绝大多数是机群系统;更高的可扩展性,机群系统可以通过原有预留的扩展接口进行无缝的扩展;更高的可管理性,通常管理一个机群系统要比管理一个小型机系统要简单得多,这也同时意味着培养一个小型机的管理人才将花费大量的费用和支出;更高的系统鲁棒性(健壮或强壮),机群系统都是采用了标准的硬件设备,容易采购,同时也较容易维护,有更多国内厂商支持,很多国内厂商支持机群系统的同时,国外厂商也生产机群系统;对应用系统的更多的支持,机群系统可以支持大量的操作系统并且可以支持多种操作系统,也支持32位和64位的软件系统,在机群系统上运行的软件是小型机系统的成百上千倍。

和传统的高性能计算机技术相比,机群技术可以利用普通的PC、工作站、服务器作为节点,系统造价低;可以实现很高的运算速度,完成大运算量的计算;而且提高了系统的可用性和可扩展性;具有较高的响应能力,能够满足当今日益增长的信息服务的需求。今年,曙光首次系统化推出了基于机群服务器的十大成熟技术。这十大成熟技术是曙光潜心研究并且在实际应用中得到验证的技术,在这些技术共同作用下,才能够真正满足用户的需求。
2 体系标准化亟待确立

标准化是行业应用成熟的标志。目前,中国高性能计算机领域缺乏统一标准,给用户的应用和中国服务器产业的发展带来了障碍。随着高性能计算机产业的不断发展 ,加快高性能计算机标准化工作,已成为中国电子工业协会标准化技术协会亟待解决的重要议程。

计算机机群的特点便是它要将上百、上千、甚至是上万台电脑集成在一起,在同一时间内共同完成一项任务。面对这种情况,某些专家指出,一些在单机运算上看似不起眼的问题,在计算机机群方面会被凸现出来,例如散热、能耗以及整机的稳定性。

目前HPCC单个计算节点的耗能在300瓦到400瓦之间,如果一个拥有上千、上万个节点的高性能计算机群,它所消耗的能量将与一个小型发电站所产生的电能相当。这种能源上的消耗,不容忽视。随着能耗的上升,散热问题同样令人堪忧,毕竟高密度的机群方式,需要的散热条件非常严格,一旦散热出现问题,直接影响整个计算机机群的稳定性。

此外,专家还认为高性能计算机群技术的构架是以IA架构为基础。Intel IA架构本身是从PC电脑发展起来的,因此它的稳定性与传统Unix服务器或是超级计算机相比,不是在同一个数量级上进行比较,IA架构的稳定性要低的很多。节点上千,故障一旦发生如何迅速处理也是一个难题。

对此,专家称目前,计算机机群在稳定性、散热和功耗上取得了很大提升,完全能满足用户的需求。在产品技术上,机群经过十多年的发展,已经非常成熟了,但技术的标准化还存在问题,市场上甚至出现一些简单地把PC服务器放进机柜来冒充的“伪机群”,明显缺少机群的基本特性,既以低价扰乱了市场,又给用户的应用带来了隐患。为此,曙光公司推出了基于机群服务器的十大标准化技术,作为机群服务器的领导厂商,曙光认为自己有责任倡导出业界标准,为用户在市场上采购机群产品提供借鉴。

事实上,目前中国机群发展进入了一个瓶颈期,多数稍具技术实力的厂商都可以设计出计算速度上万亿次的高性能计算机。可以说,在充足的资金前提下,设计一套全球前十名的高性能机群系统,并非难事。在科学计算方面,唯一的问题因素是资金。此外,在体结构层面,目前全球业界还没有出现重大的突破。就目前业界技术发展状况而言,浪潮基于弹性部署理念的计算能力、数据通讯、输入输出非单极优化的MABS体系结构思路,为高性能商用服务器系统实现技术突破奠定了理论基础。

IA架构的计算机机群以前存在的诸如散热、稳定性、功耗等矛盾,在厂商的层面已经基本解决,与以往的解决方案相比,机群在成本、性能上的强势远大于一些专家所指出的劣势。在未来,体系架构和标准化应是厂商们努力的目标。

3 高性能计算进入泛应用时代     

20世纪90年代以来,我国在高端计算机的研制方面已经取得了较好的成绩,掌握了研制高端计算机的一些关键技术,参与高端计算机研制的单位已经从科研院所发展到企业界,有力地推动了高端计算的发展。我国的高性能计算环境已得到重大改善,总计算能力与发达国家的差距正逐步缩小。

也许有人认为,高性能计算目前离我们的实际生活还很遥远,但是金融、电信、税务、能源、制造等行业中的很多企事业都已经开始应用高性能计算,而作为普通百姓的衣食住行,在刷卡购物、打电话、听天气预报、出门坐车时也已经在享受高性能计算所带来的准确与方便。
    但据了解,我国目前应用的高性能计算机还主要集中在科学计算、金融保险、电信3个领域,而且科学计算占有相当大的比重,达到20%以上,而美国、日本等国家高性能计算机的应用中,科学计算只占10%以下,商业应用则占50%以上,这在一定程度上说明,我国高性能计算的商业应用市场还有待进一步开发。
    在科学计算应用方面,不同行业和领域的不同应用具有不同的特点。因此,应用对高性能计算机产品及服务的要求也各不相同。即使同一行业的不同应用之间,其需求也不尽相同。比如说,在石油领域,涉及科学计算的应用主要有地震资料处理、油藏模拟、数字油田等等,其业务应用系统对产品的稳定性和服务的及时性等方面,都有很高的要求。即使同属于石油行业应用的地震资料处理和油藏模拟,对高性能计算机的通信性能和计算能力上的需求,又各有侧重和不同。

   
为了更好地满足行业应用复杂多样的需求,厂商除了向行业用户提供可定制的产品外,还建立了包括行业应用软件研发、调试、优化以及行业复合型人才培养的综合体系。例如,在石油行业,联想就与ParaDIGM、西方地球物理公司等第三方ISV以及中石化、中石油等石油业务公司合作,基于联想高性能服务器产品,开展了地震资料处理、油藏模拟、数字油田等方面的应用移植、优化和开发。
    曙光4000A运到上海超级计算中心后,只用了10天时间就完成整个系统的安装调试,恢复正常运行。在近两个月的试算与应用软件测试移植过程中,几百个节点没有换一块主板,系统的可靠性、稳定性超出了人们的预料。这充分证明,我国自己研制生产的高性能计算机,不仅性能价格比高于国外同类机器,而且其综合服务体系完全能保证大规模应用的连续性和稳定性。

4  应用水平存在的差距

但是,从总体上讲,我国高端计算应用研究与开发明显滞后于高端计算机的发展,应用的并行度普遍在百十量级,应用到更大规模的很少(并非没有需求)。高端应用软件的开发和高效并行算法的研究尚不能与高端计算机发展同步,在一定程度上存在为计算机“配”软件的思想。对应用的投入远远不够,应用研发的力量薄弱且分散,缺乏跨学科的综合型人才,从事高端应用软件研发的单位很少,企业界基本未介入,没有良好的、相互交流的组织渠道等。这种严重的不平衡已经制约了我国高性能计算事业的健康、可持续发展。我国在高性能计算方面与西方发达国家的最大差距已经不是高性能计算机本身,而是我们的应用水平。

我国高性能计算在更广泛的应用领域上与西方国家存在很大差距。一方面,国外品牌还占领着很多领域和行业;另一方面我国高性能的应用还不够广、不深入,应用比较薄弱,效率比较低下。随着越来越多的用户开始采用高性能计算机,应用软件的发展后滞明显严重。另外,一些用户对传统RISC小型机存在使用习惯和品牌偏好,接受Linux机群需要厂商做大量的工作。微软(中国)公司副总经理孙建东认为Unix的应用移植已经不成问题,微软新的Windows Server 2003 R2版本已经能够实现无缝的移植。

目前,国内机群应用还处于起步阶段,用户机群在对高性能计算应用处于观望的状态,他们最看重的问题,不是采用何种技术,而是是否能实现实际应用。目前,高性能计算客户在选择性和功能性上常被局限在很窄的范围内,如果想要得到一个定制的解决方案,他们不得不被迫采用专有系统。作为唯一采用与应用打包的机群系统解决方案供应商,HP以低成本向用户提供了简单、可伸缩、不断提升性能的方案,并将一如既往地坚持下去。

近两年,随着曙光、神威、银河、联想、浪潮、同方等一批知名产品的出现,我国成为继美、日之后第三个具备高端计算机系统研制能力的国家,被誉为世界未来高性能计算市场的“第三股力量”。在国家相关部门的不断支持下,一批国产超级计算机相继面世,大量的高性能计算系统进入教育、科研、石油、金融等领域,尤其值得一提的曙光4000A在全球TOP500中排名前十,并成功应用于国家网格主节点之一:上海超级计算中心,这些不仅标志着我国在高性能计算的研制、应用方面由弱变强,也标志着在核心计算方面,中国已经逐渐赶超甚至达到国际领先水平,我国高性能计算机在研制、产业化以及应用方面取得了很大的成就。