【NewRelic】インフラエンジニアからSREへの変革 感想

NewRelic社のオンラインセミナーが面白い内容でしたので、自分の記録としてメモを残しておきます。

https://newrelic.com/jp/resources/webinars/nrs-sre2021-ty

  • エンジニアの本来の新機能開発という業務に集中するため、障害解決等はNewRelicで効率化する。
  • ビジネスアジリティ、いかに早く新機能をリリースできるかが重要。
  • DevOpsは「文化」「ツール」「プラクティス」の三要素で構成。
  • リードタイム、デプロイ頻度、変更失敗、可用性、復旧時間が追うべきメトリクス。成長している企業とそうでない企業はこれらの値が100倍以上違う。
  • SREは「ソフトウェアエンジニアが運用を設計したらどうなるのか?」というアプローチ。50%以上のリソースは信頼性を向上するためのコード生成を行うこと。ソフトウェアで運用を設計し、サービス信頼性・変更速度を最大化する。
  • SLIは計測値、SLOは目標値、SLAは契約値。SREはSLI、SLOにフォーカスする。
  • SLIは可用性やレイテンシーを基準にすることが多い。
  • 99.999%はシステム的に自動復旧しないと実現不可能。
  • 顧客視点でSLOを設定すべき。サービス顧客の目標レベルで信頼性を設定する。
  • エラーバジェットの考え方が大事。エラーが起きても良い予算を設定する。DevとSREの連携が重要で、エラーバジェットポリシーをちゃんと決めた方が良い。
  • SLO範囲内で変更速度を最大化する。
  • モダンモニタリング、オブザーバビリティが重要。ビジネスからクラウドまで全て一気通貫で監視できるか。
  • 昔はシンプルなシステム構成だったが、現在はシステム構成が複雑化しており、監視も複雑化している。
  • 4 Golden Signalsをおさえておくべき。可用性、遅延、スループット、エラー率、リソース。

NewRelicはSREに取り組む上で必須なツールだと改めて感じました!(当然NewRelic以外にも似たようなツールはありますが)