网格是当前IT和互联网领域的发展前沿领域。专家认为网格是1995~2010年计算机体系结构、操作系统、用户界面领域最重大的突破性创新。专家指出,已经错过全球微电子发展高潮的中国一定要加强在下一个前沿技术领域...
网格是当前IT和互联网领域的发展前沿领域。专家认为网格是1995~2010年计算机体系结构、操作系统、用户界面领域最重大的突破性创新。专家指出,已经错过全球微电子发展高潮的中国一定要加强在下一个前沿技术领域的研究,网格的机遇无论如何不能错过。中国教育科研网格(ChinaGrid)项目随即成为了"十五"国家"211工程"公共服务体系"CERNE(中国教育科研网)高速地区网和重点学科信息服务体系建设"项目中的重要建设内容。该项目将建立聚合能力超过15万亿次量级的教育科研网格,形成世界上最大的超级网格之一,在网格计算的基础研究和应用研究方面占得先机。。。
网格的召唤:新的机遇不容错过
中国教育科研网格ChinaGrid计划是教育部“十五”211工程公共服务体系建设的重大专项。中国教育科研网格将充分利用中国国家教育科研网CERNET和高校的大量计算资源和信息资源,开放相应的网络软件,配合网络计算机的使用,将分布再教育和科研网上自治的分布异构的海量资源集成起来,实现CERNET环境下资源的有效共享,消除信息孤岛,提供有效的服务,形成高水平低成本的服务平台,将高性能计算送到教育和科研网用户的桌面上,成为国家科研教学服务的大平台。
中山大学在医学图像诊断等图像处理网格应用方面一直处于国内领先地位。在科研计算领域,计算运算量大、强调处理器运算能力的特点促使中山大学对高性能计算平台以及高性能网格计算平台的需求日益加深,此外,相应网络软件的共享、海量资源的有效利用也使得中山大学对科研网格的需求不断升级。早在2004年6月八十年校庆期间,就召开了“中国网格技术专家论坛”,中科院计算所所长李国杰院士、国家高性能计算中心(合肥)主任陈国良院士、中科院计算所国家智能中心主任孙凝晖教授等一批网格技术专家为中山大学网格技术的发展共商大计。
突出的需求和典型的特征使得中山大学成为了首批进入国家教育部教育科研网格项目的高校,该校采用64节点曙光4000L超级服务器,构建起运算速度高达7000多亿次/秒的网格计算平台。而在完善自身高性能计算平台的同时,中山大学还与华中科技大学、清华大学、北京大学、北京航空航天大学等12所高校联手,共同建立起聚合能力超过每秒6万亿次量级的教育科研网格,总存储容量超过60TB。此后,中国教育科研网格将逐步连接更多高校,实现聚合能力超过15万亿次量级的教育科研网格,成为世界上最大的超级网格之一,争取在网格计算的基础研究和应用研究方面走在世界前列。
高性能计算平台:HPC机群系统构架成功基石
在中山大学高性能计算平台的搭建过程当中,系统根据科学计算领域运算量大、强调处理器运算能力的特点,并综合考虑了整体性价比,最终以62节点的天阔I610r-V服务器构成了计算平台主体框架,外加配置2颗计算能力卓越的 Nocona 2.8GHz的CPU,2G ECC内存,36G 10K RPM Ultra320 SCSI硬盘,双1000M RJ45网卡。整个机群系统理论计算峰值可达每秒6944亿次,实现了极为强大的高性能运算环境。
系统旨在实现整个高性能计算资源共享,访问节点则成为了实现该目标的重要载体。其主要负责整个机群系统的接入及控制及作业的调度,由于机群中的所有节点的管理和配置,以及用户的登陆,计算作业的分发、管理都需要通过此节点完成,针对应用需求,该系统采用了2块36G 10K RPM Ultra320 SCSI硬盘做成RAID1,极大成度实现了系统的安全保障性。系统监控节点配备2颗Nocona 2.8G处理器,2GB ECC Registered DDR RAM,2个1000M RJ45网卡和1个100M RJ45网卡用于消除单一故障点,最大限度提高其处理速度。
此外,考虑到整个机群系统的监控、日常管理工作以及大型存储系统互联、NFS文件的共享,系统还配备了监控节点,并根据存储互连及共享需求采用了具有较强的内存读写能力的存储节点。
曙光4000L系统整体框架图
网络系统平台:突破瓶颈布局天下
在以曙光超级计算机构建起自身高性能计算平台之后,中山大学继而投入到了中国教育科研网格的首批入驻工程当中。在高性能网格计算平台的搭建过程中,长期以来IA架构机群一直存在的I/O瓶颈问题亟待攻克。问题主要表现在两方面,一是网络带宽,二是存储系统带宽。为了解决这个问题,也为了充分发挥各类设备现有的性能,本方案充分考虑到了各计算节点、I/O节点、以及核心交换机的性能参数。在保证了系统稳定的前提下,使每台设备都能得到最大限度的利用。在这套系统中,整个机群系统采用数据通讯网络和管理网络双网分离的解决方案。所有节点有两套网络,1套是管理网,1套是数据通讯网。采用数据网和管理网分开的方式可以减轻数据网的负载,同时由于每个节点都配置了自适应的多块千兆网卡,在今后的升级中可以仅仅增加交换机就可以构造双千兆的网络,增加传输带宽,形成动态分配系统。所以,采用这样的网络配置,不仅仅满足了现有的性能需求,也有着很强的扩展能力,机群中增加的节点可以直接接入交换机,可以保障数据网的带宽,具有很高的性能价格比。
本方案中采用两台千兆交换机来进行并行计算的数据通讯网络,为保障数据通讯有足够的带宽,2台交换机采用堆叠的方式。交换机选用Foundry网络公司的EdgeIron 48GS千兆交换机。该款交换机提供了48个10/100/1000M自适应以太网端口,2个堆叠端口,1个可选的万兆上联模块;交换容量160Gbps,转发性能116Mpps;支持堆叠,最大可完成8个交换机的堆叠,提供384个1000M以太网端口。根据实际情况的不同,对参与同一计算任务的计算节点机设为同一网段,默认出厂为所有节点都在同一网段。
管理网络是由2台D-LINK公司的DES-1048交换机构成的100M网络。该交换机有48个百兆RJ45端口。由于该网络系统主要以管理、监控为主,其数据流量不是很大,本着“接合实际、保证投资”的原则,我们选用了百兆位以太网连接方式。管理网络主要用于机群的管理、监控、登录、任务调度等系统管理员常用工作。
在科学计算应用中,会产生大量、频繁的I/O操作,存储系统有着举足轻重的作用。选择高性能的存储设备,突破I/O存储的瓶颈,成了机群设计中的重要任务。针对用户要求,系统采用2Gbps的光纤通道网卡,并已经过EMC公司PowerPath软件的授权。
网格背后:
曙光公司全面参与了国家网格、教育网格等一系列的项目研究、开发工作。截止到目前,我国已经在北京上海建立了两个国家网格主节点,其中,由曙光公司联合中科院计算所采用美国AMDopteron处理器研制生产的中国第一台运算速度超过每秒10万亿次的超级计算机——曙光4000A也即将问世并落户上海超算中心,成为国家网格南方主节点,它将使得中国成为继美国、日本之后第三个能制造和应用10万亿次商用高性能计算机的国家。