18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 行业动态 > 最大支持64块GPU的SR-AI

最大支持64块GPU的SR-AI

时间:2022-04-08 05:51:02 | 来源:行业动态

时间:2022-04-08 05:51:02 来源:行业动态

SR-AI单机可实现支持16个GPU的超大扩展性节点,该方案最大支持64块GPU,峰值处理能力为512 TFlop,可支持千亿样本、万亿参数级别的模型训练。该服务器打破了传统服务器的GPU/CPU紧耦合架构,通过PCI-e Switch节点连接上行的CPU计算/调度节点和下行的GPU Box,实现CPU/GPU的独立扩容,避免传统架构升级带来的部件过度冗余,使得GPU扩展无需同步配置高成本的IT资源,可将成本优化5%以上,随着规模上升,成本优势更加明显。

浪潮表示,在计算平台的选择上,企业可以在适合线下训练的计算加速节点采用浪潮领先业界设计的浮点运算能力强、高扩展的GPU服务器,或KNM 计算加速器,而用于线上识别的计算加速节点采用浪潮低功耗、高能效比的GPU 服务器,或者低功耗定制优化推理程序的FPGA加速器。

2017 年,浪潮AI服务器在中国AI市场占有率超过57%,阿里巴巴、腾讯和百度三家运营商90%以上的AI服务器都来自浪潮。

对于浪潮在AI服务器上的成功,浪潮AIHPC总经理刘军将其归功于三个方面,一是对GPU的布局早,二是对行业客户的把握--把互联网作为主航道,三是产品创新的能力和效果有保证。

日前,浪潮也公开了企业AI策略。

2018年4月26日,在浪潮云数据中心合作伙伴大会IPF2018上,浪潮发布全新AI品牌TensorServer,明确传递浪潮对AI业务的决心与愿景。浪潮集团副总裁彭震对TensorServer品牌予以了诠释:「Tensor是算法的基础元素,Server是计算力的基础架构。AI基础架构对于AI产业持续快速健康发展至关重要。TensorServer 意在成为AI的承载者与赋能者,整合创新AI基础架构系统,以计算开启可进化的智慧世界。」

这里的AI基础架构系统涵盖平台、管理、框架、应用多个方面。

在AI管理上,浪潮部署AIStation人工智能深度学习集群管理软件。AIStation主要面向深度学习计算集群,提供数据处理、模型开发、模型训练、推理服务全流程服务,支持多种深度学习框架,能够快速部署深度学习训练环境,全面管理深度学习训练任务,为深度学习用户提供高效易用的平台。此外,这一软件可以对计算集群的CPU及GPU资源进行统一的管理、调度及监控,有效的提高计算资源的利用率和生产率。

作为补充,浪潮还自研Teye应用特征分析系统。Teye主要用于分析AI应用程序在GPU集群上运行时对硬件及系统资源占用的情况,反映出应用程序的运行特征、热点及瓶颈,从而帮助用户最大限度的在现有平台挖掘应用的计算潜力,进而为应用程序的优化以及应用算法的调整改进提供科学的指引方向。

而在框架上,浪潮早在2015年就发布Caffe-MPI深度学习计算框架,他们在Caffe架构的基础上,针对并行扩展性做出一系列创新。

据记者了解,最新版本Caffe-MPI在4节点16块GPU卡集群系统上训练性能较单卡提升13倍,其每秒处理图片数量是同配置集群运行的TensorFlow 1.0的近2倍。

Caffe-MPI设计了两层通信模式:节点内的 GPU 卡间通信及节点间的 RDMA 全局通信,这极大降低了网络通信的压力,并克服了传统通信模式中 PCIE 与网络之间带宽不均衡的影响,同时Caffe-MPI还设计实现了计算和通信的重叠。此外,新版本 Caffe-MPI提供了更好的cuDNN兼容性,用户可以无缝调用最新的cuDNN版本实现更大的性能提升。

除了自研深度学习框架,浪潮将深度学习框架及其依赖的库统一进行资源封装成一个镜像,之后便可以在任何支持资源封装的浪潮平台上随时加载镜像,用户可以立刻开始工作,其工作环境与原始环境完全一致,这可以有效提升生产力。目前,浪潮可封装的框架资源基本涵盖了主流的深度学习框架,包括 Caffe/Cafee-MPI、TensorFlow、CNTK、MXNet以及PaddlePaddle等。

在应用加速上,记者了解到浪潮的解决方案如下:

应用场景咨询与系统方案设计

浪潮AI解决方案专家与客户商讨深度学习应用场景,共同分析计算热点和瓶颈,帮助设计适合客户应用场景的系统方案。

应用代码移植优化

浪潮异构应用专家可以帮助客户分析CPU代码特征,辨别是否适合迁移至异构加速部件,并共同将代码热点进行移植优化,提升应用的计算效率,时间更短。

计算加速部件性能横向评测

浪潮针对GPU/FPGA/KNM等主流异构加速部件拥有成熟的横向评测方法,可以帮助客户选择适合的部件。

目前,浪潮的解决方案为行业AI转型提供赋能支撑。

浪潮与百度合作推出ABC一体机,这一设备集合了百度自研的集群管理软件、优化引擎和浪潮AI计算硬件平台,支持PaddlePaddle、TensorFlow、Caffe等主流深度学习框架,内嵌成熟的算法模型和云管理技术。

据浪潮介绍,ABC人脸识别一体机支持百度人脸检测、1:1人脸对比和1:N人脸查找三大人脸识别核心能力,可以根据人脸面部的72个特征点识别多种人脸属性,如性别、年龄、表情等信息,并计算人脸相似度,可用于用户身份。

此外,浪潮很早就开始与科大讯飞合作训练语音神经网络模型,从将模型训练从CPU单机上扩展到多机,而后又开展如何在FPGA上运行语音神经网络模型的研究,实现更高的性能。

目前,浪潮在计算平台、管理套件、框架优化和应用加速上已经形成有机的AI生态。刘军表示,对于渴望AI转型的企业,从客观看,极其需要这四层能力,而浪潮作为赋能者,能将这四层能力赋予这些企业,让其更快速地实现 AI落地。

关键词:支持

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭