Site Reliability Engineering

Site Reliability Engineering o SRE es una disciplina que combina operaciones e ingeniería de software. Este último se aplica a problemas de infraestructura y operaciones, específicamente. Es decir, en lugar de crear características del producto, los ingenieros de confiabilidad del sitio crean sistemas para ejecutar aplicaciones. Hay similitudes con DevOps, pero mientras DevOps se enfoca en llevar el código a producción, SRE garantiza que el código que se ejecuta en producción funcione correctamente.

Problema que aborda

Asegurar que las aplicaciones se ejecuten confiablemente requiere múltiples capacidades, desde la supervisión del rendimiento, las alertas, la depuración hasta la resolución de problemas. Sin estos, los operadores del sistema solo pueden reaccionar a los problemas en lugar de trabajar de manera proactiva para evitarlos — el tiempo de inactividad solo se convierte en una cuestión de tiempo.

¿Cómo ayuda?

Un enfoque SRE minimiza el costo, el tiempo y el esfuerzo del proceso de desarrollo de software mejorando continuamente el sistema subyacente. El sistema mide y monitorea continuamente la infraestructura y los componentes de la aplicación. Cuando algo sale mal, el sistema indica a los ingenieros de confiabilidad del sitio cuándo, dónde y cómo solucionarlo. Este enfoque ayuda a crear sistemas de software altamente escalables y confiables mediante la automatización de tareas operativas.


Modificado(a) por última vez February 6, 2024: Translated all ES tags (#2651) (187c2f3)