システム監視ツールは、監視対象で何らかの異変を察知するとアラートを通知します。
オペレータは迅速にアラートの内容を確認し、障害と判断したものをインシデントとしてチケット登録し、更に障害対応担当に通知します。
しかし、現実にはアラートメールの重複や通知の多さにより、効率的な障害対応を実施できているシステム部門は少ないのではないでしょうか?
システム運用現場は、会社から毎年のようにコスト削減を言い渡され、満足のいくような環境や人的リソースが配分されていない中、現場から運用改善を会社に上申しても、その費用対効果が可視化出来ず、大きく変わることなく日々の業務に追われてしまっています。
現場の色々な判断ルールを元に重複したアラートを集約出来るSHERPA-IRのフィルター機能は、こうしたシステム運用・保守の現場が抱える悩みを解決できます。
サーバー監視の必要性
システムは24時間365日休みなく稼働しており、稼働しているシステムは、Webサーバーをはじめとして多岐に渡っています。システムに障害が見られた場合、すぐに障害の内容を特定して被害が最小限にとどまるような対応を取りつつ、障害の原因を特定する作業に入らなくてはなりません。
障害の原因に応じた措置を迅速に講じ、障害の影響を抑えることが、結果的にクライアントや顧客への影響最小化に繋がります。
そのためにシステムに異変がないかサーバー監視を適切に行い、より安全でリスクが少ないシステム運用・保守に努める必要があるのです。
- 異常監視とは
- 異常監視は、何らかの原因でシステムが停止していないか、問題が起こりそうな事象はないかを監視することを言います。異変が起これば、必要に応じてチケットが発行されシステム管理者に詳細が通知されます。
もしサーバーが停止した場合は、システムの再起動など必要な対処をおこないます。また、サーバーの停止した原因がわかり、対応できる内容であれば適宜対応しますが、すぐに原因が特定できない内容や、イレギュラーな内容の場合には複数の担当者で手分けして応急処置を行っていきます。
異常監視からアラートが通知され、障害と判断された場合、一刻も早く原因を突き止め的確な障害対処が必要です。
迅速に的確な障害対処が行われない場合、長時間のシステム停止を引き起こし、ビジネスに莫大な損失が発生することになります。
- 正常監視・予兆監視とは
- システム監視における正常監視とは、問題なくシステムが稼働しているか、どこかで異変が起こっていないか監視することを言います。
異変が起こっているかどうかを判断するためには、普段システムがどんな動作をしているかを把握していないと判断できないため、欠かさず行うことが必要だと言えます。
また、予兆監視で定型的なシステムの動きだけでなく、更新作業などが滞りなく行われているかどうかを常に目を光らせて監視しています。
予兆監視を徹底することで、異変が起こったときのリスクを最小限に抑えることができます。普段と違う動きをしていることを瞬時に察知して、大規模なシステム障害などのリスクを最小限に抑えることは、システム運用・保守にとってメリットがあると言えます。
アラート通知について
アラート通知は、システムに異変があったときに内容に応じてチケットを発行し、担当者に知らせることを言います。あらかじめ、障害と判定される内容を設定しておき、その値となった場合にチケットが発行されて通知されます。また、同じ内容の異変で何度もチケットが発行されて担当者にアラート通知がいくケースもあります。
アラートの通知方法は、メール、SNS、パトランプ、PCのビープ音など、お客様毎の工夫で多岐にわたります。
アラート通知が来ると、担当者は内容の確認から障害原因の特定・解決方法の確認、そして障害対応へと迅速に処理していかなければなりません。一番目の作業である内容確認が遅れると、その後の処理開始が全て遅くなってしまうので、システムの正常再開も遅れることとなり、システム利用者にも迷惑が掛かってしまいます。
一つのシステム障害の復旧遅延が、会社に対するクライアントや顧客からの信用を大きく低下することにも繋がることもあり、ビジネスインパクトを最小限にとどめるためにも、
アラートを正確に処理することがシステム運用において重要だと言えるでしょう。
アラートメールの重複が問題となる理由
1つの障害に対して解決が遅れると、『障害がまだ解決されていない』と判断されアラートメールが重複してしまうことがあります。この現象が起こると、なぜ問題になるのでしょうか。
同じ内容のアラートメールが大量に届くと、担当者は何度も同一の内容のアラートを確認するという手間が発生します。
単純な作業を繰り返し行なわなければならない状況は、作業担当者のモチベーションを大幅に低下させ、作業効率の低下と作業ミスを引き起こしてしまいます。
また、何度もアラートが発行されてメールでの通知がされた場合、メールサーバーにも負荷がかかり、最悪の場合メールサーバーのダウンという更なる事態を引き起こす可能性も考えられます。
こうした担当者のモチベーションの低下を引き金とし、やがて担当者の離職を招きかねません。
深刻な人手不足の課題を根本的に抱えているシステム運用の現場では、アラートの重複は可能な限り整理して通知できるようにしなければならないことが重要な事だということがご理解いただけたと思います。
大量のアラートを防止したい場合
では、大量にアラートが届くのを防止するにはどうしたらいいのでしょうか。
大量のアラートメールが届くのは、システム障害などのリスクを恐れるあまり詳細な条件設定をするためです。
また、同じ内容のアラートメールを整理する機能がないと整理されないままアラートメールが届くため、担当者は内容を逐一確認しなければならなくなります。