Classi開発者ブログ

教育プラットフォーム「Classi」を開発・運営するClassi株式会社の開発者ブログです。

アラート対応で気をつけていること

こんにちは!開発本部の id:lime1024 です。

アラート対応について社内で esa にまとめていたところ、参考になると社内でフィードバックをいただいたので開発者ブログでも紹介します。

前提として、平日日勤帯でのアラート発生を想定しています。

対応するときに気を付けていること

初動は早くする

アラートが発生しているという状況を把握して報告するのは、一分一秒でも早くするように心がけています。

Classi では Datadog の Monitor を使っており、その通知先が Slack になっています。基本的には各アプリケーションのオーナーであるチームにメンションが飛ぶようになっているので、メンションが飛んできたらまずは該当のアラートを「見ること」を、アラート対応のためのチャンネルに書きます。 「見ること」を書くことで、アラートが出ても誰も見ていないという状態を防ぐことや、一人で見る自信は無いけれど誰かと一緒であれば見てみたいという人も反応しやすくなります。

なにはともあれ反応する

自分にメンションが飛んできているということは、対応する必要があるからです。もし、メンションが来ているけれど反応しない・または反応する必要がないときは、メンションを投げる先が間違えているか、しきい値が間違っているのでアラートがオオカミ少年にならないように見直しを行います。

もしも、通話中だったり忙しいときは今やっていることが障害対応より優先されるものかどうかをまず考えます。とは言え、本当に忙しくて対応が難しいときはあるので、そのときは "誰か見れませんか?" と書きます。

何を見ているか・何を対応しているかを外からわかるようにする

アラートに対していま何をしているかは、アラート対応のためのチャンネルでオープンにやるようにしています。オープンにやるというのは以下の 2 点です。

  • 基本的には Slack のスレッドには書かない・書いてもスレッドの外に出す (Also sent to #channel)
  • アラート対応のためのチャンネル以外で対応しない

アラート対応の様子が気になって後から覗きに来た人の目線で考えると、Slack のスレッド機能では状況が見えにくいです。ただし、すでに収束していて調査内容をまとめるときや状況整理を行うとき等はスレッドに書くこともあります。同様にアラート対応のためのチャンネル以外に状況が記載されていると後から来た人がキャッチアップをしづらくなります。

また、どんなに対応が進んでいても、状況が書かれていないと外から見ても分からないため、定期的に対応状況のサマリを書くようにしています。特に複数人で通話しながら対応しているときに通話内で情報共有が進み、通話外の人への共有漏れが発生しがちになるため、気を付けるようにしています。

アラートの内容がわからないとき

わからないことを表明する

わからないからアラート対応をしなくてもいいわけではないので、わからないときはわからないことを表明するようにしています。すると、人がわらわら集まってきます。

もし誰も集まらなかったときは、ちょっとドキドキしますが Slack で @channel します。

何がわからないか深堀りする

いま出ているアラートに対して、自分がわからないのはアラートの内容なのか、それともアラートが発生しているアプリケーションのドメイン知識が無いのかを深堀りします。

アラート発生時の初動の時点では、アプリケーションのことはわからなくてもある程度はなんとかなりますし、アラート内容のこともアプリケーションのこともわからなくても見れるものはあります。自分がドメイン知識を持っていないアプリケーションでアラートが発生したときは以下のことを確認しています。

  • 該当のアプリケーションがいま動いているのか・体感で遅くなっていないかをブラウザから実際にアクセスして確認する
  • レスポンスタイムが遅くなっているのであれば、それはどのエンドポイントなのかを Datadog から特定する
  • 5xx エラーが出ているのであれば、それは ALB からなのか ECS からなのかを確認する
  • 該当のアプリケーションの ECS コンテナは生きているか・再起動を繰り返していないか
  • 該当のアプリケーションで直近でリリースは無かったか

以上のことを確認している間に、アラートに気付いた他の人達が集まってくれるはずです。

解決しようとしない

わからないものはわからないので、アラートに反応して対応もしたけど解決できなかった...と思わないようにしています。実際に解決する人・解決できる人の一助になれたら良いくらいの温度感でいるようにしています。

さいごに

アラートが発生してどうしよう!?となったときにこの記事を思い出して頂けたら嬉しいです。

© 2020 Classi Corp.