NewRelic社のオンラインセミナーが面白い内容でしたので、自分の記録としてメモを残しておきます。
https://newrelic.com/jp/resources/webinars/nrs-sre2021-ty
- エンジニアの本来の新機能開発という業務に集中するため、障害解決等はNewRelicで効率化する。
- ビジネスアジリティ、いかに早く新機能をリリースできるかが重要。
- DevOpsは「文化」「ツール」「プラクティス」の三要素で構成。
- リードタイム、デプロイ頻度、変更失敗、可用性、復旧時間が追うべきメトリクス。成長している企業とそうでない企業はこれらの値が100倍以上違う。
- SREは「ソフトウェアエンジニアが運用を設計したらどうなるのか?」というアプローチ。50%以上のリソースは信頼性を向上するためのコード生成を行うこと。ソフトウェアで運用を設計し、サービス信頼性・変更速度を最大化する。
- SLIは計測値、SLOは目標値、SLAは契約値。SREはSLI、SLOにフォーカスする。
- SLIは可用性やレイテンシーを基準にすることが多い。
- 99.999%はシステム的に自動復旧しないと実現不可能。
- 顧客視点でSLOを設定すべき。サービス顧客の目標レベルで信頼性を設定する。
- エラーバジェットの考え方が大事。エラーが起きても良い予算を設定する。DevとSREの連携が重要で、エラーバジェットポリシーをちゃんと決めた方が良い。
- SLO範囲内で変更速度を最大化する。
- モダンモニタリング、オブザーバビリティが重要。ビジネスからクラウドまで全て一気通貫で監視できるか。
- 昔はシンプルなシステム構成だったが、現在はシステム構成が複雑化しており、監視も複雑化している。
- 4 Golden Signalsをおさえておくべき。可用性、遅延、スループット、エラー率、リソース。
NewRelicはSREに取り組む上で必須なツールだと改めて感じました!(当然NewRelic以外にも似たようなツールはありますが)