正文内容 评论(0)
天河2号再一次称霸全球超算性能榜单(性能最大33.83PFlops,千万亿次浮点计算),虽然仍处在建设中,但它已经史无前例的连续5次成为Top500的冠军。
不过,高兴之余我们也有一丝隐忧,因为美国商务部在今年4月份发布公告,决定拒绝英特尔公司向中国的国家超级计算中心出售至强芯片用于天河二号的升级。
因为Xeon E5处理器比较容易获取,所以限售的重点直指Xeon Phi计算加速卡。至于超算为什么必须用加速卡,重点考虑的就是能耗和建设成本。
限售令公布后,天河2号系统主任设计师、国防科大教授卢宇彤曾回应,“按照原定计划,天河二号拟在今年将计算能力从55PFLOPS升级到100PFLOPS。尽管此次美方对天河二号升级所需Intel Xeon处理器的限售,对原定升级计划有一定影响,但我们早有准备,绝不会影响天河二号从55PFLOPS升级到100PFLOPS的既定目标 。
至于中国的信心来自那里,本次超算峰会上,卢宇彤的主题演讲也亲自做了回应,我们整理了ZDnet亲临现场后发回的报道,一起来看看。
这一次,全新的天河2A首次公开对外公布了信息,和与历代天河系统的对比,其运算峰值将达到100P,更为精彩的是,“中国计算加速卡China Accelerator”首次亮相,型号“Matrix2000”。
虽然处理器方面仍是至强E5-2692 V2,但这款自主的加速卡可谓是对“禁运令”的最大回击。而且,在性能提升到100P的同时,天河2A的功耗几乎没有增加!
事实上,通用处理器在未来的HPC系统里的权重会越来越低,主要工作将逐渐向控制层面转移,计算任务则主要由加速器完成。因为NVIDIA GPGPU Tesla同样在美国限售范围内,国防科大给出的中国自主研发方案就是通用计算数字信号处理器(GPDSP)。必须承认的是,并不算有多“高大上”。
Matrix2000的主要设计规格预计为16核设计,可达到2.4T的浮点性能,虽然还比不上Knight Landing的3T,但对于白手起家的中国来说,已经相当不易,而且功耗比现有的Xeon Phi少了100W。
Matrix2000的内部设计,采用了标量与向量单元+超长指令字(VLIW)的架构
针对全新的Matrix2000所准备的软件堆栈,包括GPDPS驱动程序、操作系统、编译器、数学库等
据国防科大的相关研发人员介绍,有关DSP的浮点计算应用,一直也是国防科大的研发重点,它与超算研究可谓是并行发展。也正是因为有了这样的积累,国防科大才能比较从容的面对美国的限售。但该研发人员也表示,GPDSP的一个推广难点也就在于,在HPC应用领域几乎是从零起步,就像当初NVIDIA刚推出GPGPU时一样,直到CUDA的发布才迅速改善了GPGPU的应用生态环境。
在互联层,采用了自主研发的TH-Express 2+架构,实现了自适应(Adaptive)互联架构
所谓的自适应互联架构,就从多个层面入手,通过自应用平台层至底层形成的智能互动,保证网络效率持续而稳定,比如自动规避质量不佳或拥挤的链路,进一步杜绝重复的通信,并在节点与网络故障时对路由重新配置等等。
天河二号A仍然是以自主研发的H2FS文件系统为核心,实现了1TB/s的突发传输,100GB/s的持续传输
不过卢宇彤表示,目前Matrix2000已经通过了验收。这意味着至少在国防科大的层面,正式投入使用已经没有问题,但具体时间还不能确定,所以只给出了2016年这一较为笼统的时间点。
相关研发人员也透露,除了应用平台进一步配套完善之外,GPDSP芯片本身的生产与物理设备的调优还有很多工作要做。而且受限于当前中国半导体生产工艺水平,现在还是采用40nm工艺的GPDSP,也在很大程度上制约了Matrix2000的能力。
总的来说,中国研制超大规模HPC系统的目的肯定不仅仅是为了跑个LINPACK争个名次,否则也不会引起美国的重视并引发限售。
天河二号A的设计在某种角度上说,真正打开了中国自主HPC发展的向上之路,因为加速器很重要,也因为加速器被国外限售,所以天河二号A在这种环境下还能很快达到100P的性能,也许连美国相关人士也没有想到,但这绝对是件好事!