サイト信頼性エンジニアリング(SRE)

サイト信頼性エンジニアリング(SRE: Site Reliability Engineering)は、オペレーションとソフトウェアエンジニアリングを組み合わせた分野です。 後者では、特にインフラストラクチャとオペレーションの問題に応用されます。 つまり製品機能を構築する代わりに、サイト信頼性エンジニアは、アプリケーションを実行するためのシステムを構築します。 DevOpsとの類似点がありますが、DevOpsがコードを本番環境に導入することに焦点を当てているのに対し、SREは本番環境で実行中のコードが適切に機能することを保証します。

解決すべき問題はなんですか

アプリケーションを高い信頼性で実行するためには、パフォーマンスモニタリング、アラート、デバッグ、トラブルシューティングなど、複数の機能が必要です。 これらがなければ、システムオペレーターは問題に対応するだけで、積極的にそれらを回避しようとすることはできません。 — ダウンタイムは時間の問題となるだけです。

どのように役に立つのでしょうか

SREのアプローチは、基盤となるシステムを継続的に改善することで、ソフトウェア開発プロセスのコスト、時間、労力を最小限に抑えます。 システムは、インフラストラクチャとアプリケーションコンポーネントを継続的に測定し監視します。 何か問題が発生した場合、システムはサイト信頼性エンジニアにいつ、どこで、どのように修正するかを指摘します。 このアプローチを用いて運用タスクを自動化することで、高度にスケーラブルで信頼性の高いソフトウェアシステムを作成するのに役立ちます。