Хаос-инженерия

Хаос-инженерия (chaos engineering, CE) — подход, при котором над распределенной production-системой проводятся различные эксперименты, цель которых — убедиться, что она способна противостоять турбулентным и неожиданным ситуациям.

Какую проблему решает

Практики SRE и DevOps концентрируются на методах повышения отказоустойчивости и надежности систем. Способность системы выдерживать сбои, обеспечивая при этом надлежащее качество обслуживания, как правило, является одним из требований при разработке программного обеспечения. Перебои в работе (основанного на микросервисах) приложения могут быть связаны с различными аспектами: инфраструктурой, платформой и другими компонентами, которые могут изменяться. Частое развертывание новых функций в production-окружении повышает вероятность критического инцидента и простоя со значительными негативными последствиями для бизнеса.

Как именно решает проблему

Хаос-инженерия помогает удовлетворить требования к живучести систем. Она используется для проверки устойчивости инфраструктуры, платформ и приложений к сбоям. В рамках хаос-экспериментов в систему вводятся случайные «поломки», чтобы проверить, способны ли приложение, инфраструктура или платформа самовосстанавливаться, и убедиться, что сбой не оказывает значимое негативное влияние на потребителей. Хаос-эксперименты направлены на выявление «слепых зон» (например, в мониторинге или при автомасштабировании) и на улучшение коммуникаций между командами во время критических инцидентов. Такой подход позволяет повысить отказоустойчивость сложных систем (в том числе production-уровня) и уверенность команд в них.


Последнее изменение October 27, 2023: [ru] Localize chaos-engineering.md (4d5b329)