不要なアラートメールに悩まされないために
システム監視の担当になると悩まされるのが「誤報」です。特にイベント情報の精査を人手でやっていると、不要な通知などにも一度目を通さねば「不要」と判断できず、多大なロスが生じます。では、統合運用管理ツールを導入している場合はどうでしょうか。ここでもイベント情報が精査されなければ、やはり不要な通知メールなどが発生することになり、ロスが生じてしまいます。するとコンソールの画面が不要イベントで埋め尽くされるようになり、重要な障害イベントを見落としてしまうことになります。
理想を言えば、既知のアラートと新規のアラートは明確に分類されるべきですし、監視のインフラは一つにまとまっている方が障害が起こった時の対応も明確になります。しかし、必要に迫られてシステムを増築してきたりした会社では、なかなか実現できないことも。そういった場合は、何となく統合運用管理ツールを付け加えるのではなく、強力な監視機能を備えたツールに一本化する必要が出てくるかもしれません。
一般的には、誤報を減らすためにはアラート通知を必要なものだけに絞ったり、ルールが明確な監視を設計したり、作業を手順化したり、監視のインターフェースを一元化することが必要だと言われています。しかし、これらの作業も人手に頼っていれば、担当者が替わったりした場合に引き継ぎが面倒。できればアラートの扱いをサポートするツールが欲しいところです。
例えば統合運用管理ツールの中には、大量のアラートメールをさばくフィルタリング機能を持ったものがあります。日常業務では、監視システムからのアラートメールだけでなく、サポート業務やヘルプデスク業務に関するメールも大量に送られてきます。こういったフィルタリングツールでは、事前に定義しておくことで、受信したメールを自動的に抽出して電文内容を分析・分類し、アラートメールを定型フォーマットにしてオペレーターに回したり、要対応の通知を技術者に伝えたり、緊急連絡をシステムエンジニアに伝えたりすることまですべて自動化することが可能です。運用責任者の負担を軽減できるだけでなく、障害対応の時間を短縮したり、作業ミスを大幅に削減することができます。