Ingénierie de la fiabilité des sites (SRE)

L’ingénierie de la fiabilité des sites (ou SRE pour Site Reliability Engineering en anglais) est une discipline qui combine l’exploitation informatique et le développement logiciel. Ce dernier est utilisé spécifiquement pour résoudre des problèmes d’infrastructure et d’exploitation informatique. En d’autres termes, au lieu de créer des fonctionnalités pour une application, les ingénieurs en fiabilité des sites construisent des systèmes pour faire fonctionner les applications. Il existe des similitudes avec le DevOps, mais tandis que le DevOps se concentre sur la mise en production du code, le SRE s’assure que le code exécuté en production fonctionne correctement.

Problème auquel il répond

Garantir le fonctionnement fiable des applications requiert de nombreuses capacités, de la surveillance des performances à la gestion des alertes, du débogage au dépannage. Sans ces capacités, les opérateurs de systèmes ne peuvent que réagir aux problèmes au lieu de travailler de manière proactive pour les éviter — Les indisponibilités ne sont plus qu’une question de temps.

Quelle en est l’utilité

Une approche SRE minimise le coût, le temps et les efforts du processus de développement logiciel en améliorant continuellement le système sous-jacent. Le système mesure et surveille en permanence les composants de l’infrastructure et de l’application. Lorsque quelque chose ne va pas, le système indique aux ingénieurs en fiabilité des sites quand, où et comment le réparer. Cette approche permet de créer des systèmes logiciels avec une grande capacité de mise à l’échelle et fiables en automatisant les tâches opérationnelles.


Dernière modification July 24, 2024: [FR] Fix typo "quelle en est" (#3240) (de14375)