Paper2 Blog

ともに、かける

入門監視: モダンなモニタリングのためのデザインパターン

概要

この本はシステムの監視を始める人向けの入門書です。監視で重要な考え方であったり、監視を始める時にどのような項目を取得することが多いのかなどの基礎が記載されています。

1~4章では監視の原則、アラート・オンコール・インシデント管理など監視の基礎的な取り組みや考え方を学ぶことができます。5~11章では何を監視すべきなのか、なぜ監視すべきなのか、どうやって監視するのかといった監視の戦略について書いています。具体的な内容が多いので初めての方でも監視のイメージを掴むことができます。

総評

監視の入門書としてはとてもおすすめの1冊です。もう3年以上前の本なんですね。。。チームで監視強化に取り組むのでメンバに読んで欲しいというのもあり読書会を企画し、私も再度読みました。1~4章に書かれている内容は監視の原則なので数年で色褪せるものではなく、入門者にとっては依然として有用な内容です。5~11章に関しても概ね基礎的な監視項目を解説しているので入門者にとってはイメージがつきやすいでしょう。基本的には2022年でも通用する内容が記載されています。一方でオンプレの内容も含まれるためクラウドがメインの組織にとっては深い内容が一部含まれています。特に9章のネットワーク監視周りは大枠が掴めれば最初は深追いしなくても良いと思います。(スパニングツリープロトコルとかは普通に面白いので興味あれば調べてみてください)

おすすめポイント

監視を育てる

監視は1回作って終わりではありません。アプリケーションコードと同様にメンテナンスしていくものです。観測方法や閾値の見直しを定期的におこない、アップデートしていきましょう。筆者はそれを「監視を育てる」と言っています。

入門 監視 (Kindle の位置No.3586-3588). Kindle 版.

私も気付かずに言っていましたが、今思うとこの本の受け売りだったのかもしれません笑 この考え方は非常に重要です。監視は最初から完璧なものはできません。育てるのが前提です。 前職(SIer)ではウォーターフォールが多いのもあり、設計時点である程度完璧なものを求められることがありました。意外とこの原則を知らない人が多く、最初から完璧な監視をできると思っている人が多かったりします。動いてもないシステムの監視を最初から完璧に設計するのは無理です。断言しても良いです笑 その都度私はそのことを説明し、期待値コントロールをしていました。よくある勘違いなので、ぜひこの考えは最初に理解しておくと良いと思います。

どうしたらアラートをよくできるか

初心に戻りましょう。すべてのアラートは誰かがアクションする必要がある状態でしょうか。 入門 監視 (Kindle の位置No.1003-1004). Kindle 版.

こちらは緊急のアラートにおいてのあるべき姿だと考えています。よく例に挙るのがCPUの高負荷アラートです。CPUが高負荷でもユーザに影響がないことは多いです。一方でCPUの高負荷アラートは一部では慣習となっており、実際にアラートが来たらCPUを眺めて落ち着くのを待つだけということもあります。アラートは明らかに問題が発生しており、それに対応すべき時に発報するのが基本と考えて良いでしょう。それを実現するためのプラクティスも紹介されています。

各アラートには、対象サービスの手順書へのリンクを入れましょう。誰かがアラートに応答した時、手順書を開くことで、何が起こっているか、アラートがどんな意味か、また修復の手順などを理解できるでしょう。 入門 監視 (Kindle の位置No.968-970). Kindle 版.

メルペイミクシィなどではしっかり取り組まれています。実は弊社ではまだまだこれから整理が必要という段階ですがしっかり取り組んでいきたいです!