混沌工程原则 – 四海吧

来自Pixabay的Peggy und Marco Lachmann-Anke的图片

系统故障的代价可能是巨大的，不仅是在金钱方面，还包括品牌声誉和客户信任。随着系统变得越来越复杂，确保其可靠性变得至关重要。混沌工程始于Netflix的“混沌猴”随机中断服务，提供了一种解决方案。这种积极主动的方法有意地引入系统故障，以发现漏洞。在本文中，我们将深入探讨其核心原则及其对现代企业的重要性。

为什么需要混沌工程？

随着时间的推移，现代软件系统变得越来越复杂，传统的确保可靠性的方法已不再足够。虽然精心设计、严格测试和警惕的监控起着关键作用，但它们单独不能保证在生产中获得无故障的体验。这让我们陷入了根本性的问题：为什么我们需要混沌工程？

现代系统的复杂性：随着应用程序从单块结构转变为微服务架构，通常由Kubernetes等平台管理，由此产生的系统变成了一个相互依赖的服务网络。无论是存储数据还是处理数据的每个服务，都通过各种方法进行通信，例如API调用或消息队列。这种设置虽然提供了开发灵活性，但也引入了链式反应故障的风险。混沌工程积极地测试这些连接，确保如果某个部分失败，不会导致整个系统崩溃。
分布式系统的不可预测性：分布在各个数据中心或混合云环境中的系统面临固有的挑战。网络中断或不同数据更新速度等因素可能导致故障。传统的质量保证可能会捕捉到常见的问题，但混沌工程更进一步。它测试分布式环境中独特的情况，确保例如一个地区的延迟不会瘫痪整个系统。
系统故障的代价：除了直接的经济损失，系统故障还可能导致部署 setbacks 和大量的故障排除。在我们频繁部署更新的世界中，一个未被注意到的问题可能迅速成为一个实际问题。通过将混沌工程纳入常规流程，我们可以及早发现潜在的干扰因素，确保不仅功能正常，而且鲁棒性强。

混沌工程的核心原则

混沌工程的基本概念建立在一套原则之上。这些原则指导从业者有条不紊且有效地进行混沌实验。

围绕稳定状态行为建立假设

系统的“稳定状态”是其标准操作行为，也就是正常状态。在引入混沌之前，了解这一点至关重要，因为它作为我们的基准。如果我们不知道我们的系统在典型条件下的行为方式，我们如何衡量模拟故障的影响？通过以这个稳定状态为基础，构建我们的混沌实验假设，我们可以对发生了哪些变化和什么保持弹性进行有针对性的观察。

2. 变化现实世界事件

现实世界的系统经历了各种不可预测的事件。这些事件范围从流量激增到数据库突然丢失。首先列出可能发生在系统中的真实世界干扰。一旦确定，就模拟这些干扰。例如，如果您是一个电子商务平台，如果您的支付网关失败会发生什么？有意断开连接并观察。

3. 在生产环境中运行实验

尽管分阶段环境有其优点，但生产环境的不可预测性提供了对系统行为最真实、最真实的见解。这个原则经常引起争议，但混沌工程的真正价值就在这里。当然，这并不意味着我们要鲁莽地跳入其中。在生产中进行的每个实验都需要经过精心的规划和周密的回滚计划。这不是为了鲁莽行事，而是为了做好准备。为您的实验设定明确的边界，并实时监测它们，以了解您引入的混沌的涟漪效应。

4. 自动化实验以连续运行

系统不是静态的。它们会不断演变、扩展和适应。为了确保我们的系统在这种变化中保持弹性，我们的混沌实验必须是一次又一次的事件。从Gremlin到Chaos Monkey等现代工具已经使自动化这些实验成为可能。通过将混沌嵌入我们操作的常规节奏中，我们确保我们的系统始终在潜在的干扰因素面前得到验证。

5. 最小化冲击半径

但是让我们明确一点：混沌工程并不是为了制造混乱。它是关于受控的干扰。当我们开始时，我们的实验应该是小规模的，影响我们用户群或基础设施的有限范围。这样，我们可以以最小的风险进行学习、迭代和扩展实验。对于基于云的应用程序，您可以首先关闭集群中的一个实例。观察其影响，然后考虑模拟整个可用区的故障。

游戏日的重要性

游戏日是计划的、受控的模拟或演练，工程团队在其中练习对各种场景，尤其是失败场景的反应，以测试系统和流程。这些练习是混沌工程学科的重要组成部分，并具有以下几个好处：

实时响应训练：游戏日使团队能够在实时情况下高效、有效地反应。知道协议是一回事，但在压力下执行协议是另一回事。
加强团队间沟通：在故障或事故期间，通常需要多个团队迅速合作。游戏日促进了团队间更好的沟通，突出了需要改进的领域。
发现未知的弱点：即使采用最佳的混沌工程实践，有些漏洞可能被忽视。游戏日常常揭示这些问题，使团队能够主动解决它们。
改进文档：游戏日的后续回顾经常会导致文档的完善，确保关键信息的清晰和易于访问。

为了组织一个有效的游戏日，应该具备以下要素：

设定明确的目标：明确列出您将目标服务、资源或组件。如果您对混沌工程还不熟悉，尤其是初次尝试，最好避免影响关键生产服务。从对潜在影响最小的实验开始，并随着信心和经验的积累逐渐扩大范围。
实施监控和可观察性：确保您有实时监控工具，可以快速检测到任何异常。可视化关键指标和系统健康状况，以便可以即时观察到任何不良影响。设置警报，如果某些行为超出预期，通知相关团队。
制定回滚计划：在进行实验之前，要确切知道如何撤销任何更改或干预。这可能涉及重新启动服务、回退部署或重新路由流量。确保对关键数据和系统进行备份，以便在必要时恢复到已知的良好状态。
涉及所有利益相关者：在运行实验之前，确保所有相关方（从工程团队到客户支持）都得到通知并做好准备。这种包容性不仅准备了整个团队，还培养了一种对系统可靠性的集体所有权文化。营造一种每个人都知道并能够为实验的目标和潜在结果做出贡献的文化。
谨慎自动化：即使您的混沌实验是自动化的，在开始进行初始测试时也要确保始终有人监督。在自动化脚本中实施健全性检查，以便在超过某些关键阈值时停止实验。
事后分析：在每次混沌实验之后，进行一次回顾。了解一切顺利进行的原因，出了什么问题以及系统的响应情况。利用这些经验，完善未来的混沌实验，并根据观察到的行为增强实际系统。这个迭代的过程对于持续改进至关重要。

结论

混沌工程的转变价值不仅在于增强系统，而且在于培养持续学习和适应性的文化。它激励团队共同审视和增强系统行为，确保在真实世界中出现干扰时，系统的强大性和团队的准备性相互协调，以最小化不良影响。