AI使能IT运维
时间:2022-03-29 18:48:01 | 来源:行业动态
时间:2022-03-29 18:48:01 来源:行业动态
随着AI时代的到来,我们工作和生活中的一切都在被重新定义。企业在尝试通过AI技术提高运维服务的有效性乃至预测性,同时降低成本,实现业务转型。
在2016年,Gartner提出了AIOps的概念,并预测到2020年,AIOps的采用率将会达到50%。简单来说,AIOps就是希望基于已有的运维数据(日志、监控信息、应用信息等)并通过机器学习的方式来进一步解决在IT运维中通过自动化没办法解决的问题。
作为一种将算法集成到工具里的新型运维方式,AIOps可以帮助企业最大程度的简化运维工作,把IT从耗时又容易出错的流程中解放出来。传统IT运维管理工具更为关注突发事件(即告警)、配置和性能,而AIOps则更加关注问题、分析和预测,二者可谓互相补充相得益彰。
有了AIOps,当IT出现故障隐患,运维人员不需要再等待系统发出故障告警,通过内置的机器学习算法以及大数据技术,就能自动发现系统的各类异常,从而实现从异常入手判断故障发生的可能性、严重性和影响,依赖机器对数据的分析结果,判断最佳的应对方案。
数据只有全面才能进行科学的决策,很多时候如果看到的日志不全,或者拿到的监控数据不准,在做决策的时候肯定就会比较贸然。比如数据中心某业务链路出现问题,是不是要切换?数据是不是还能保持一致?这个时候在没有确定的数据来支撑你决策之前,你做决策时都会感到比较忐忑,犹豫不前。
就目前来看,国内的百度、搜狗、阿里巴巴等互联网厂商已经在探索尝试AIOps,并且取得了不错的效果。通过支持AIOps能力,平台能够提供更大的分析调整自修复能力,更进一步提高IT效率。
如何从错综复杂的运维监控数据中得出我们所需要的信息和结果,一句话就是分辨和精炼。同时,确保业务和SLA服务级别,出现问题要及时响应、自动分析和优化,把处理的流程精简和高效组合起来,让问题匹配正确的场景,找到正确的人,在第一时间正确处理。
机器学习需要大量的数据来训练,故障出现的形态是千奇百怪,对故障的历史数据进行场景分类和标注,不断用模式识别和数据来训练机器识别和分析,然后让机器自动准确判断。
基于数据和模型来提高事件的处理能力。很多事件有的工程师处理的特别快,反之如果对这个故障不熟悉的人可能花费的时间就很长。这就需要构建一个策略知识库,让其他人来参考和学习,提高同类场景事件处理的能力。
我们以数据中心的管理与运维为例,数据中心的运维工作主要包括配置管理和监控,运维人员每天都要进行大量的模块维护操作,这个过程大部分程序是由人力手工操作完成的。一方面人的精力有限,不可能及时发现所有的故障,另一方面,这一过程中人为失误的可能性不可避免。将人工智能应用于数据中心的管理和控制,通过机器学习模型进行精细化管理,可以实现智能化运维的目标。
谷歌可以说是最早在数据中心的管理方面运用人工智能技术的代表了,它使用人工神经网络对大型数据中心的运行进行分析,对数据进行了收集和汇总(像数据中心基础设施的耗电量、为达到一定制冷效果所用的水的量),通过人工智能计算模型对数据中心的运行效率进行分析和评估,提出相应的改进数据中心运行效率的解决方案。