Site Reliability Engineering

Cos’è

Site Reliability Engineering o SRE è una disciplina che combina operations e ingegneria del software. Quest’ultima viene applicata specificamente a problemi infrastrutturali e operativi. In altre parole, invece di creare funzionalità di prodotto, i SRE realizzano i sistemi su cui le applicazioni sono in esecuzione. Esistono somiglianze con DevOps, ma mentre DevOps si concentra sul portare il codice in produzione, SRE garantisce che il codice in produzione funzioni correttamente.

Quali problematiche affronta

Per garantire che le applicazioni funzionino in modo affidabile, sono necessarie molteplici funzionalità, dal monitoraggio delle prestazioni, agli allarmi, al debug di errori e problemi. Senza questi elementi, gli sviluppatori possono solo reagire ai problemi anziché lavorare in modo proattivo per evitarli: il verificarsi di interruzioni di servizio sarà solo questione di tempo.

In che modo aiuta

Un approccio SRE riduce al minimo i costi, i tempi e gli sforzi del processo di sviluppo del software migliorando in modo continuo l’infrastruttura. Il sistema misura e monitora continuamente l’infrastruttura e i componenti dell’applicazione. Quando qualcosa va storto, il sistema indica ai SRE quando, dove e come risolvere il problema. Questo approccio aiuta a creare sistemi software altamente scalabili e affidabili, automatizzando le attività operative.