どうしたらよいアラートができるか
- アラートにメールを使うのは良くない
- 受け取る人間が最も精神力を使ってしまう
- わかるんだけど、オンプレミスの場合どういう代替手段が取れるか悩みどころ
- アラートを受け取った時の手順書を用意しておく
- これはやるべき
- アラートのチューニングをする
- しばらく運用してフィードバックを受けたり現地に赴いたりするのもよいかも
- メンテナンスモードを使う
- サービス対応などではアラートが邪魔になってしまう。切れるようにしておくと良い。
- 自動復旧を実装する
- 手順書で行うことが機械的に実施可能なら、まずは自動復旧させるのが最前。
上手なオンコール運用のしかた
- Follow-the-Sun
- 世界を股にかけ、日中のタイムゾーンが世界中のトラブルを担当する
- これは画期的だが、きちんとした情報共有基盤となるシステムがないと難しい。言語の問題もある。
インシデント管理
- チームがどのようなフローで動けば良いか
- 認識
- ロギング
- 分類
- 優先順位づけ
- 初期診断
- 必要に応じてレベル2へのエスカレーション
- 解決
- クローズ
- 発生中におけるユーザーとのコミュニケーション
- 役割は下記のように分かれ得る
- 現場指揮官
- スクライブ(書記)
- コミュニケーション調整役
- 実務担当者
コミュニケーションがコミュニケーションに徹するというのは難しい。というか書記が全体を把握するのが難しそう。