読書感想 – 入門 監視(3章)

どうしたらよいアラートができるか

  • アラートにメールを使うのは良くない
    • 受け取る人間が最も精神力を使ってしまう
    • わかるんだけど、オンプレミスの場合どういう代替手段が取れるか悩みどころ
  • アラートを受け取った時の手順書を用意しておく
    • これはやるべき
  • アラートのチューニングをする
    • しばらく運用してフィードバックを受けたり現地に赴いたりするのもよいかも
  • メンテナンスモードを使う
    • サービス対応などではアラートが邪魔になってしまう。切れるようにしておくと良い。
  • 自動復旧を実装する
    • 手順書で行うことが機械的に実施可能なら、まずは自動復旧させるのが最前。

上手なオンコール運用のしかた

  • Follow-the-Sun
    • 世界を股にかけ、日中のタイムゾーンが世界中のトラブルを担当する
    • これは画期的だが、きちんとした情報共有基盤となるシステムがないと難しい。言語の問題もある。

インシデント管理

  • チームがどのようなフローで動けば良いか
    1. 認識
    2. ロギング
    3. 分類
    4. 優先順位づけ
    5. 初期診断
    6. 必要に応じてレベル2へのエスカレーション
    7. 解決
    8. クローズ
    9. 発生中におけるユーザーとのコミュニケーション
  • 役割は下記のように分かれ得る
    • 現場指揮官
    • スクライブ(書記)
    • コミュニケーション調整役
    • 実務担当者

コミュニケーションがコミュニケーションに徹するというのは難しい。というか書記が全体を把握するのが難しそう。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です