英特尔强势回归
时间:2022-04-06 18:00:01 | 来源:行业动态
时间:2022-04-06 18:00:01 来源:行业动态
在SC19大会的筹备与召开期间,英特尔公司在丹佛会议中心附近举办了自己的高性能计算开发者会议。英特尔此次活动的重头戏,当数该公司高级副总裁,架构师,架构、图形与软件业务总经理Raja Koduri的演讲。在此次演讲中,他披露了专为Aurora设计的GPU系统的一系列细节信息。
英特尔CPU与GPU都将采用英特尔公司尚未正式投产的下一代7纳米制程工艺。但愿芯片巨头不要再遇上当初10纳米工艺的生产转化问题,否则相关进度恐怕又要落后。下一代至强CPU代号为Sapphire Rapids。此外,英特尔在本次会议中还公布了其Xe HPC GPU,代号为Ponte Vecchio(以意大利佛罗伦萨的一座桥梁命名)。
英特尔专为高性能计算设计的Ponte Vecchio系列GPU
Ponte Vecchio GPU专为高性能计算类工作负载设计,其中结合有多种不同矢量计算单元。高性能计算GPU的主要工作,在于处理单精度与双精度浮点数学运算。此外,英特尔还将在新方案中支持各类流行的AI数据格式,包括INT8、BFloat16以及FP16等等。
每一块Xe芯片都结合有CPU与GPU计算模式
这套系统设计方案利用英特尔EMIB封装技术将GPU接入高带宽内存(HBM)。Ponte Vecchio GPU还将采用由英特尔的Foveros 3D芯片堆叠技术构建而成的特制内存接口芯片,名为Xe Memory Fabric(XEMF)。XEMF将配合名为Rambo的大缓存设计,借此进一步提高可扩展性,用以处理规模愈发庞大的AI模型。
Ponte Vecchio将成为英特尔GPU系列产品中的又一座高峰,其多芯片模块设计在每个模块内部署8块芯片,每块GPU则包含2个模块。英特尔还将利用其EMIB技术将Xe计算单元同内存对接起来。配备有Rambo缓存的XEMF也将运用Foveros 3D堆叠技术。最后,英特尔方面还将推出新型Xe总线,用于实现Xe GPU的全面互连。
英特尔Ponte Vecchio采用专用缓存以提升高性能计算工作负载的可扩展性
英特尔目前还在构建一种新型软件堆栈,希望借此将所有计算芯片捆绑在同一平台之上。用于计算加速的oneAPI平台将全面覆盖CPU、GPU以及FPGA。SC19大会上公布的oneAPI初始版本为0.5 beta版,目前已经在Intel DevCloud上开放访问。英特尔还开发出一款名为Data Parallel C (DPC )的新型编程语言,以Khronos的SYCL语言为基础同时添加了英特尔自己的专用扩展。英特尔决定将oneAPI与DPC 作为开源项目开放,希望更多芯片公司能够参与其中并使用这套平台。
英特尔Ponte Vecchio的高性能计算模块
Aurora超级计算机将采用双Sapphire Rapids至强加六块英特尔Ponte Vecchio HPC GPU的组合。其中GPU的互连总线以最近刚刚公布的CXL总线(采用PCIe 5.0物理层)为基础,即前文提到的全新Xe总线,同时配备一块新型交换芯片。
Aurora项目对英特尔来说无疑是一项重大挑战。芯片巨头目前正在构建一套新型软件堆栈,计划利用新的半导体制程工艺与封装技术为Aurora打造全新GPU。这一切都必须在两年之内完成设计、制造与集成。换句话说,英特尔方面必须充分证明自己在软件、制造与设计方面的整体实力。
英特尔公司的Raja Koduri,与阿贡国家实验室副主任Rick Sevens
就在英特尔公布其Aurora百亿亿次超级计算机平台细节信息的同时,AMD方面也披露了自己为Frontier百亿亿次超算打造的软件开发平台。Frontier将是一套全AMD系统,采用EYPC CPU与Radeon Instinct GPU。AMD公司的优势在于其一直在发售独立的GPU产品,但英特尔方面的现成方案只有英特尔第九代集成图形芯片。对于英伟达CUDA,AMD也给出了自己的开源回应方案ROCM(以及一套对应oneAPI的替代方案)。目前ROCM已经发布了第三个主要版本,能够支持TensorFlow以及PyTorch处理机器学习类工作负载。另外,ROCM也成为Frontier开发人员的核心软件平台,目前Frontier项目中的相当一部分资金都被用于推进ROCM的发展。最后,AMD还在本届SC19大会上公布了围绕EPYC服务器处理器打造的扩展生态系统。
ARM:环保很重要
由ARM自主研发的A64FX处理器搭建的富士通原型系统,表现出极 出色的性能水平与能源效率,并一举拿下本届绿色超算五百强的头名桂冠。此外,这也是一套少见的没有使用加速器(例如GPU或者FPGA)的高性能超级计算机。通过向ARM内核当中添加可伸缩矢量扩展(SVE)这一业界首创的设计思路,这套原型系统获得了强大的浮点运算性能。
富士通A64FX高性能计算处理器。
对ARM来说,另一条大新闻来自英伟达计划利用基于ARM架构的Marvell Thunder X2服务器主板发布的全新机器学习参考系统。英伟达方面将为整个ARM生态系统提供全栈CUDA库支持。说起CUDA,不同于尚处于0.5 beta版本的英特尔oneAPI以及版本3的AMD ROCM,英伟达的CUDA目前已经处于10.2版本。很明显,挑战者们还得慢慢奋斗才能跟上GPU巨头在CUDA生态系统健壮度与成熟度方面的脚步。
微软也为Azure发布了一系列合作关系公告。配合英伟达,微软Azure首次推出按需超级计算机实例,在云数据中心内利用Mellanox交换机对接800块英伟达V100 GPU。这项服务的上线,有望以容器方式为高性能计算应用提供资源助力。另外,微软还将其Azure云定位为新型技术平台。
在SC19大会之前,Grahcore与微软就联合宣布,Graphcore系统现在已经正式登陆Azure云。考虑到近期一直没什么振奋人心的消息,此次公告无疑给Graphcore注入了一针强心剂。