Хаос-инженерия

Methodology

Хаос-инженерия (chaos engineering, CE) — подход, при котором над распределенной production-системой проводятся различные эксперименты, цель которых — убедиться, что она способна противостоять турбулентным и неожиданным ситуациям.

Какую проблему решает

Практики SRE и DevOps концентрируются на методах повышения отказоустойчивости и надежности систем. Способность системы выдерживать сбои, обеспечивая при этом надлежащее качество обслуживания, как правило, является одним из требований при разработке программного обеспечения. Перебои в работе (основанного на микросервисах) приложения могут быть связаны с различными аспектами: инфраструктурой, платформой и другими компонентами, которые могут изменяться. Частое развертывание новых функций в production-окружении повышает вероятность критического инцидента и простоя со значительными негативными последствиями для бизнеса.

Как именно решает проблему

Хаос-инженерия помогает удовлетворить требования к живучести систем. Она используется для проверки устойчивости инфраструктуры, платформ и приложений к сбоям. В рамках хаос-экспериментов в систему вводятся случайные «поломки», чтобы проверить, способны ли приложение, инфраструктура или платформа самовосстанавливаться, и убедиться, что сбой не оказывает значимое негативное влияние на потребителей. Хаос-эксперименты направлены на выявление «слепых зон» (например, в мониторинге или при автомасштабировании) и на улучшение коммуникаций между командами во время критических инцидентов. Такой подход позволяет повысить отказоустойчивость сложных систем (в том числе production-уровня) и уверенность команд в них.

Обратная связь

Полезна ли эта страница?

Thank you! Please let us know if you have any suggestions.

Thanks for your feedback. Please tell us how we can improve.

Последнее изменение October 27, 2023: [ru] Localize chaos-engineering.md (4d5b329)