4、你发布的代码太多了
时间:2022-03-05 14:08:01 | 来源:行业动态
时间:2022-03-05 14:08:01 来源:行业动态
当你发布了庞大的一批代码时,你会大大增加出现问题的几率,并冒着可能导致整个系统崩溃的级联效应风险,LinkedIn站点可靠性团队工程副总裁Bruno Connelly这样表示。
他说:虽然很容易一下子把所有的东西都做出来,但是大量有着微小变化的代码,处理起来的话要复杂得多。而当出现问题时,就会引发其他更多系统性的故障。
他说,最好是更频繁地发布少量的、带有较少变化的代码。
我们已经优化了我们的系统,尽可能频繁地发布代码。我们试图不断地发布少量代码,这也确实让我们很好地验证了一切仍然有相同的性能特征和下游依赖性。
这个面向专业人士的社交网络也通过模拟来确保为意外的系统故障做好准备。去年11月,LinkedIn推出了LinkedOut框架,该框架允许可靠性工程师人为地触发应用中的故障,以查看服务如何处理这些故障。
LinkedIn每天都会强制其中一个主要数据中心进行故障转移,以确保其具有足够的容量和自动化机制以抵御实际发生的数据中心灾难。
他补充说:如果你对自己的故障恢复能力很强的信心,这就是另一个警告信号。你需要不断地为故障做演练,才能适应故障的发生。