多方共举 RDMA技术不断演进受关注
时间:2022-04-29 16:24:01 | 来源:行业动态
时间:2022-04-29 16:24:01 来源:行业动态
在首届中国超级算力大会上,致力于高性能计算(HPC)和人工智能(AI)技术研究、教育和推广的国际HPC-AI咨询委员会(HPC-AI Advisory Council),携手中国大数据与智能计算产业联盟在大会上举办了关于容器环境下的RDMA应用及优化研讨会。
HPC-AI咨询委员会是一家非盈利性国际组织,成立于 2008 年,拥有400多名成员,致力于HPC-AI技术的教育与推广。成员间共享专业知识,建立特殊兴趣小组,并通过技术中心宣传HPC和AI技术的优势与应用,探索未来发展方向。该咨询委员会主办了多次全球性年度会议和STEM挑战赛(包括中国的大学生RDMA编程竞赛和德国的大学生集群竞赛)。
作为国际高性能计算及人工智能咨询委员会(HPC-AI Advisory Council)主席,Gilad表示,目前全球数据量正在飞速增长,我们面临巨大的计算挑战,现有的CPU无法满足人们的计算需求。当前,我们正在从以计算为中心切换到以数据为中心。数据中心架构从以CPU为核心到以数据为中心,网络计算成为突破口。而RDMA技术受到了互联网以及云计算提供商的青睐,成为云服务确保高性能的保障。目前RDMA不仅仅限于数据中心内部,已被扩展到从云端到边缘。
同时,2019亚太区大学生RDMA编程挑战赛颁奖典礼也盛大举行。做为高性能计算领域领先的研究和教育组织,国际HPC-AI咨询委员会面向亚太区大学生发起了第七届RDMA编程挑战赛(The 7th Student RDMA Programming Competition),旨在为在校大学生及已经毕业的学生提供学习RDMA,并成为RDMA编程高手的绝佳机会。
当前,RDMA技术正在成为以数据为中心的计算模型的关键。无论是传统的高性能计算应用还是新兴的深度学习框架,RDMA通信方式都是其中的关键环节。随着RDMA技术的应用范围不断扩大,国内外顶尖企业越发重视这一技术所能创造的价值,对该领域人才的需求也愈发增加,这也正是大赛的意义,为企业挖掘最优秀的RDMA技术人才,同时激发应用的最佳性能。
自2013年首次举办,每届大赛都吸引了来自全国各地的20家以上的高校报名参加。在2018年举办第六届大赛时,更是吸引了50余所高校报名参加。经过六年的发展,大学生RDMA编程挑战赛现已成为培养和选拔高校顶尖技术人才,推动RDMA技术在HPC和AI领域应用的重要平台。
通过参加竞赛,学生们能够深入接触HPC和AI领域最前沿的技术和工具,锻炼以技术实践解决热点应用问题的综合能力。因为注重技术创新及与行业结合,通过比赛培养了许多RDMA技术领域的专业人才,并通过学校输送给国内外各大企业及研究机构。
Gilad表示,在过去的RDMA竞赛中,参赛队伍对Spark在RDMA上进行了优化,以及在Tensorflow、 MXNet等AI框架用RDMA进行了优化。本次比赛的题目是如何使用RDMA技术优化在容器环境下的HPC应用。
具体的参赛要求:参赛队伍需要解释选择Dockers或Singularity的理由;参赛队伍可从HPC-AI咨询委员会的网站上任选两个基于RDMA技术的HPC应用或是自有的应用进行开发;在基于容器的环境下演示你所选择的RDMA应用程序可以成功运行;比较在基于容器和非容器的环境中,基础性能(如使用基于MPI的性能测试工具或使用其他底层性能工具)差异和所选应用的性能差异;在基于容器的环境中,运用RDMA技术将应用性能进行调优,最终得到最佳性能。
从以上要求可以看到,本界竞赛旨在通过优化各种RDMA应用在容器环境中的性能,切实解决业界面临的问题。通过这次竞赛,证明了在容器化的环境中同样可以得到物理机下的性能。最终中国科学技术大学成为2019亚太区大学生RDMA编程挑战赛冠军团队。
Gilad说,大赛的每次选题都是精心设计的,具备前瞻性。比如前几届大会的很多比赛成果已经进入到商业应用中。这次比赛的容器技术与RDMA的结合也是如此,毕竟容器技术创新了应用交付,而RDMA提升了应用性能。两者结合其实打通了技术人员与业务人员的藩篱,让技术与应用紧密融合。
容器技术是现在的热门技术,而对于HPC和AI应用而言,容器简化并加速了构建和隔离应用程序的过程;容器是轻量级的,而且日常管理开支较低;容器能够更加容易地实现应用程序共享和再现性,因为容器映像包括应用程序及其开发环境。特别是对于AI应用,每个AI框架都有许多依赖项。每个依赖库都有特殊的版本需求,所有AI框架都经常发生变化。容器化有助于开发人员克服这些挑战。所有东西都打包成一个单独的包,包括所有必需的部件。
中国科学技术大学获奖学生张子豫接受笔者采访时表示,容器技术对于HPC应用而言是一种创新性的交付形式,非常易于扩展,而且对于性能影响有限。他们所在小组测试了基于Singularity的主流深度学习框架比如Tensorflow,发现性能影响不大,最终他们选择了Apache Storm流式大数据处理框架,结合RDMA技术在容器环境进行应用。
张子豫还说,中国科学技术大学每年都会参加大赛,在RDMA方面积累了比较多的经验。而且他们并不只是做简单的调优工作,而是以应用为出发。比如他们计划将Apache Storm、Apache Kafka、NoSQL数据库等打包开发相应的应用。
对于获奖,张子豫表示,大会对于参赛评分比较全面,比如成功运行应用、应用的调优,还有答辩,以及其他创新工作,从多个维度考核参赛队伍的能力。非常感谢国际HPC-AI咨询委员会提供了这样一个可以与其他院校交流的平台,通过交流,我们的能力也得到了提升,收获巨大!