Paper2 Blog

ともに、かける

障害対応の教科書

システム障害対応の教科書

暗黙知になりやすいシステムの障害対応が形式知として体系的にまとめられていてとても良かったです。障害対応レベルや対応フローなどの仕組み化が出来ていない組織では特に有用かと思います。また、後進育成を考えるインシデントコマンダーなどにもオススメです。内容は業界関係なく参考になりますが、SIer業界ならではの複数ベンダと障害対応をする難しさについても説明があり大変面白かったです。

本書籍の一つの特徴として、インシデントコマンダーの考え方が根幹となっている点が挙げられます。日本ではSRE本により広まった感じがありますね。インシデントコマンダーは障害発生時の意思決定者です。障害対応の方針を決め、全体を導き、管理をします。インシデントコマンダーを中心として、作業担当、ユーザ担当、CIOなどの役割が他に紹介されています。それぞれ、自組織ではどのように当てはまるかを考えてみると良いでしょう。

また、障害対応の仕組みとしては高度な部分まで記載があると思います。他社を含めて多くの組織が関わる障害対応について解説があります。私が今見ているシステムでは顧客を除くとステークホルダが自社に閉じることが多いです。それでも大変そうなので、他社の組織も巻き込んで解決するとなると難易度が跳ね上がると思います。

基礎の部分もしっかりと説明があるので、自社に必要なレベルを見極めながら導入を進めると良いと思います。第7章では障害対応のレベルを「人の動き」「プロセス」などの7個の観点で判定できます。現状のレベルと理想の差分などを考えてみても良いかもしれません。理想のレベルは複数ベンダで大きなシステムを管理するのかなど前提で変わると思います。ビジネスとしてどのレベルが必要かが重要です。

当社ではインシデント・レスポンスの事前準備がされています。対応フローや障害レベルの定義などは各プロダクトに行なわれています。私が入社した当初から既に整備されていたのもあり、SREとして学ぶべきと思いつつも優先度が上がっていない状況でした。今回年明けにインシデント・レスポンスミートアップを企画することになり、ちゃんと学習する機会ができて良かったと思います。また、体系的に学ぶ中で当社が基礎的な部分をしっかりとで実践していることがちゃんとわかりました。1つだけ改善案が見つかったので、ちょっと提案してみようかな〜と思っています。

システムの障害対応について基礎から応用まで多くの内容が体系的にまとまっている良い書籍でした。障害対応の仕組み化ができていない組織では非常に参考になる書籍だと思います。是非読んでみてください。

おまけ

良かった・面白かったポイントをピックアップしてみます。

システム障害対応の目的は、システムを直すことではありません。ユーザの業務影響を極小化し、早期に業務を復旧させること。これがシステム障害対応の目的です。システムを直すことは、業務回復の手段の1つであり、目的ではないのです。

これはめちゃくちゃ重要ですね。障害対応について初めて学んだ際に「確かに、、、!!最悪完全に直す必要はないな、、、!!」と衝撃を受けたことを覚えていますww

インシデントコマンダーは、障害対応を行うサービス・システム・技術への深い知識を持っている必要はありません。(中略)重要なのは、技術力よりも障害対応をコントロールするためのマネジメントスキル、コミュニケーションスキルなどです。そして、全体の方向性や透明性の確保を行うことが、インシデントコマンダーの行動の重要な成功要因です。

これは確かにな〜と思いました。当社では、、、という話をしてみたいのですが言っていいのかわからないのでこのくらいにしておきますww