SRE与DevOps团队面临新的挑战
时间:2022-04-16 08:09:01 | 来源:行业动态
时间:2022-04-16 08:09:01 来源:行业动态
近年来,DevOps掀起的变革风潮可谓势头正劲,但其核心仍然是尝试以人力为前提实现技术扩展。DevOps运动呼吁将服务的所有权、支持权与问责归属交由编写代码的开发人员。这项技术鼓励打破技术运营团队的现有边界,让他们在几乎没有上下文乃至清晰升级路径的前提下独立运营,由此创造出多个规模较小的DevOps工程师团队。
各个DevOps团队通过各自的微服务实现协同合作,联手实现企业所需要的客户体验与业务目标。根据运营模式的不同,DevOps团队中往往还设有专门的站点可靠性工程(SRE)团队或个人,主要负责监控可观察数据以发现潜在问题。在这种情况下,SRE管理者将把自己的洞见反馈至开发周期当中,由此调整并增强DevOps团队服务的可靠性与可扩展性。
但是,由于事件是实时发生的,SRE与DevOps团队仍然很难在其应用程序、基础设施以及最终业务服务当中获得洞见与认知。为了理解事件发生的位置及其给服务与客户带来的影响,我们必须从噪音背景中提取出重要事件、了解不同警报之间的关系,并获取与相应团队及人员交互所需要的上下文信息。
这无疑带来了新的挑战:如何在产生实际业务影响之前,让合适的人员介入以响应并解决事件。不同DevOps团队都有自己的职责与工具,但大多数团队并不会使用API进行通信。人员分散在多个地理位置,一旦发生需要多方介入的复杂事件,我们该如何跨越不同时区与上报流程、保证各方高效联络并联手协同?
随着越来越多的企业开始以客户体验为中心、数字化优先的立场持续推动转型,这些挑战的现实严重性、监控数据的增长以及对业务的负面影响也被更多人所熟知。作为一种重要且前景光明的技术运营解决方案,企业不约而同地将AIOps纳入DevOps流程,借此塑造出可管理、高效且利润空间更为丰厚的运营前景。