对AI支持成为云平台的核心能力
时间:2022-03-31 12:24:01 | 来源:行业动态
时间:2022-03-31 12:24:01 来源:行业动态
鉴于容器化应用带来的可移植性、可扩展性等能力,利用Docker和K8s搭建容器云成为众多企业的主流应用部署平台,支撑着企业越来越多的应用,其中不乏核心的关键业务应用。另一方面,AI给企业带来的众多商业价值和商业机会使得企业AI应用的数量迅速增长,在云平台部署AI应用成为企业很自然的选择。
通过云平台或者容器云平台来统一部署包括AI在内的所有应用看起来很有吸引力。比如,AI项目通常变化快,需要快速、灵活且可扩展的环境,而云特别是混合云通过内部部署和云资源的结合能很好地满足这些需求。在混合云环境中,当需求超过内部最大能力时,可以使用外部云资源快速扩展,不管是计算还是存储能力。这不仅带来灵活性,还能带来成本的节约。
不过,那些没有专门为AI优化的云平台对于传统应用程序可能很好,但对于数据密集型应用程序(AI应用)可能会存在问题,比如过高延迟、性能不足,在流程上也不方便。因为这些平台并不能保证性能或保证处理 AI 数据所需的容量,换而言之,并非为 AI 提供端到端的应用服务而进行了优化。
AI系统是由深度学习框架、AI应用以及服务部署组成的一个闭环。在一个传统的容器云平台部署AI应用,首先要为AI应用提供一个运行环境,其中一个重要工作是部署各种AI工具,比如深度学习框架。众所周知,深度学习框架大部分是开源产品,到底选用哪个版本是一个挑战,更何况部署完后还需要不断更新。其次,AI应用的开发涉及数据获取、特征工程转换、模型分布式训练、模型验证、模型灰度发布、GPU 资源监控管理等,将整套流程的打通,并实现与其他应用的资源隔离,这些都不是原生的容器和 K8s技术所能支持的,需要进行大量技术创新。
因此,一些容器云平台开始面向AI应用进行优化,包括实现各种AI工具、框架的预集成,同时,打通数据获取、清洗、分析处理、建模等流程,为AI应用的开发和部署提供尽可能地方便。