網站可靠性工程

是什麼

網站可靠性工程(SRE)是一門結合了維運和軟體工程的專業。 它主要應用於基礎設施和維運問題。 這意味著,網站可靠性工程師不是建構產品功能,而是建構系統來運行應用程式。 雖然 SRE 和 DevOps 有相似之處,但是 DevOps 主要關注將程式碼部署到正式環境, 而 SRE 則確保正式環境中運行的程式碼正確運作。

解決的問題

確保應用程式運行具備可靠性,需要具備多項能力, 從效能監控、警報、除錯到故障排除都是必要的。 如果缺少這些能力,系統操作員只能對問題做出反應,卻無法主動努力避免它們, 而造成停機僅是時間問題。

如何幫助我們

網站可靠性工程透過持續改進底層系統, 以最大限度地降低軟體開發過程的成本、時間和工作量。 該系統持續測量和監控基礎設施和應用程式的元件。 當出現問題時,系統會向網站可靠性工程師指示何時、何處以及如何修復它。 這種方法通過自動化操作的任務,有助於創建高度的擴展性和可靠性的軟體系統。