挑战:如何加速深度学习部署与优化
时间:2022-03-24 17:27:01 | 来源:行业动态
时间:2022-03-24 17:27:01 来源:行业动态
随着深度学习算法的不断创新,越来越多的应用需要对深度学习模型进行大规模和实时的分布式推理服务。虽然已经有一些工具可用于模型优化、服务、集群调度、工作流管理等相关任务,但是对于许多深度学习的工程师和科学家而言,开发和部署能够透明地扩展到大型集群的分布式推理工作流仍然是一个严峻的挑战。
为了便于构建和生成面向大数据的深度学习应用程序,英特尔推出了 Analytics Zoo 平台。该平台提供了统一的数据分析 AI平台,可将TensorFlow、Keras、Pytorch、BigDl Spark、Flink和 Ray 程序无缝集成到一个统一的数据分析流水线中,用于分布式训练或预测,方便用户构建深度学习应用。整个流水线可以透明地扩展到运行在由搭载英特尔
至强
处理器的服务器组成的 Hadoop/Spark 集群上,以进行分布式训练或推理。
Analytics Zoo 在较新的版本中还提供了对于 Cluster Serving 的支持,构建了轻量级、分布式、实时的模型服务解决方案。Analytics Zoo Cluster Serving 支持多种深度学习模型,提供了一个简单的发布/订阅 API,可支持用户可轻松地将他们的推理请求发送到输入队列。然后,Cluster Serving 将使用分布式流框架在大型集群中进行实时模型推理和自动扩展规模。
图1. Analytics Zoo Cluster Serving 解决方案总体框架
要部署基于 Analytics Zoo Cluster Serving 的深度学习算法与应用,企业需要进行硬件选型、优化与验证,以提供高性能的算力支撑,但在此过程中,企业也面临着艰巨的挑战。首先,传统的解决方案并非是全栈设计,需要在硬件选型、软硬件适配与优化等方面耗费大量的时间与精力,也容易带来总体拥有成本 (TCO) 的上升。
其次,深度学习算法与应用对于 AI 性能有着很高的要求,未针对 AI 进行性能优化的 CPU 在运行效率上存在明显瓶颈。GPU 服务器虽然能够提供充足的算力支持,但是成本相对较高,应用范围受到较多的局限,而且其需要专门的部署与调优,不利于深度学习应用的快速上市。