システム障害時に役立つ自動連絡先グループ機能とは?(1/2)

運用管理

システム障害時に役立つ自動連絡先グループ機能とは?

システム運用・保守の現場において、システム障害は避けられない事象です。
どんなに日々の更新作業などをおこない、システムに異変がないか監視していても、システム障害は小さなきっかけで発生します。

落雷や地震などの自然災害をはじめ、人の予測できないことがシステム障害の発生要因となることもあり、障害発生そのものをゼロにすることは不可能です。

そこで大切になるのが、システム障害が発生した時にいかに素早く検知し、担当者に伝達して対応できる体制が構築されているかということになります。

担当者が素早い対応を取ることができればリスクを最小限に抑えることが可能となり、結果的にシステムの安定運用やお客様・クライアントからの信頼に繋がります。

では、システム障害の内容を的確に判別して担当者に素早く伝達するにはどのような方法があるでしょうか。
素早く伝達する方法のひとつに、システム障害を伝えるアラート通知の内容によって自動的に担当者を判別し、伝達する機能があります。

こうした機能を持つシステムのひとつが、SHERPA-IRの自動連絡先グループ機能です。
今回は、障害対応の業務フローや連絡方法を踏まえつつ、自動連絡先グループ機能があればどのように業務が変化するのか解説します。

障害対応とは?

障害対応は、システムが何らかの障害を起こした際に復旧・正常化に向けた対応のことを言います。
基本的に、システムが自動で再起動をかけて復旧できる場合と、すぐには復旧が難しく、担当者の手による手動復旧があります。手動復旧の場合は、原因の特定や障害内容、障害が発生した曜日や時間帯によって社内担当者から外部保守会社への連絡変わる場合もあり、原因がすぐに特定できないケースもあります。復旧への作業と同時に影響範囲の見極めや影響の及ぶ範囲を最小化する対応も取られます。復旧させれば良いというものではないのがポイントです。なぜ発生したのか、根本原因は何か、復旧までの恒久策はどうするかなど、これら全てが障害対応となります。

障害発生時の業務フロー

障害発生時の業務フローについては、いくつかありますので順を追って説明します。業務フローを予め決めておく事で迅速な障害対応が可能となるのでとても重要です。業務フローの内容は、以下のよう七つの流れとなります。

  1. 影響度による優先順位の判別
  2. 影響先への報告
  3. 原因調査・特定(暫定対応を含む)
  4. 対処方法の決定
  5. 障害への具体的な対応
  6. 対応結果報告

今後の障害に備えた措置

各々の流れについて説明していきます。

影響度による優先順位の判別
システム障害が発生した時に、真っ先に確認したいのが「どの程度の影響が出ているのか」の確認です。
障害の内容によっては、お客様やクライアントに重大な影響が及びます。そのため、何をおいても障害範囲の特定や想定される影響の把握が最優先となります。障害に対する対応は緊急を要するものであるとは限りませんが、復旧対応において的確な処置を行うためにも現状の把握は真っ先に行う必要があると言えます。
影響先への報告
影響が出ている関係先へ報告します。同時に、部署内でも情報を共有します。
例えば、システム障害によってお客様やクライアントが重大な影響を受けるのであれば、ホームページ上で公表や関係部署へ現在把握できている障害の規模や内容・影響が及ぶ範囲や予測される復旧にかかる時間などを伝え、速やかに伝達する作業が必要となります。
原因調査・特定
影響先への報告と同時に、障害原因の調査・原因の特定を進めます。
原因がわからない状態では対処もできませんし、リスクは増大する一方です。速やかな復旧対応のためにも、原因調査・特定は重要な業務となります。この時、過去の事例やナレッジがある事で、原因の調査や特定を早める事が出来ます。過去の情報や対応内容(ナレッジ・知見)は、いつでも検索出来るようにする事が、いざという時に役に立ちます。
対処方法の決定
障害の原因が特定できたら、復旧の対応方法を決定します。
すぐに対応できる内容なのか、時間がかかるのか。時間がかかる場合は、その間の措置について速やかに決定し、関係者へ復旧見込みを連絡します。対処の内容は、後でナレッジになるため、しっかりと記録してとどめて置くことが重要です。得てして、雑に対応してしまいがちですが、確実に記録に残す事で、次回以降の対処時間を圧倒的に短くすることが出来ます。慌てず、しっかりと記録を残す事をおススメします。正確に情報を残し、落ち着いた時に精査して直す事を忘れないようにしましょう。
障害への具体的な対応
対処内容に従い、復旧するための措置を講じます。障害箇所が広範囲にわたる場合は、手分けして一刻も早い復旧に向けて作業します。対応をする中で、対処内容に漏れている箇所が見つかった場合は記録に残し情報の正確性、精度の向上を図ります。対処内容に書いていないことを実施した事を隠してしまうケースも見受けられます。対処内容は、想定の部分で書かれているものが多く、細かい部分で実施の順序や記載の内容に誤りがあることが正直多いです。内容を隠すことなく、指摘する事が次に必ず繋がりますので、他の人に同じ思いをさせないためにもちゃんと指摘を報告する事はとても重要です。
対応結果報告
復旧したら、障害の原因となった内容・対応事項・修正事項などをまとめて報告します。同時に今後の運用・保守に活かすため記録として保管します。この時漏れてしまうのが、その対応を「誰が、いつ、どうやったか」のエビデンスとなります。対応結果報告と対に保管する事をおススメします。
今後の障害に備えた措置
今後、同じような障害が起こったときに対応できるよう、システムを補強したり、事例を関係者間で共有し、対応方法を整備します。自己満足ではなく、次に伝え、教訓とする事。これはとても重要です。同じ思いをさせない。問題管理や変更管理に繋がる部分となります。

このように、復旧作業にも段階的なフローがあります。障害発生が避けられない以上、様々な事態を想定した業務フローの策定は迅速に対応するためにも必須となり、常にアップデートが必要です。
復旧作業の業務フロー策定・定期的な見直しは、安定的なシステム運用・保守には欠かせません。

障害発生時の連絡方法

業務フローのさらに細かい部分に位置するのが、障害発生時の連絡方法です。どんな方法で、誰に連絡が入るのか、どの範囲まで情報を共有するのかという点は運用・保守の中でも重要事項になります。

システム障害時に役立つ自動連絡先グループ機能とは?の記事には続きがあります

SHERPA SUITE
監修 SHERPA SUITE運営事務局 オープンソース(OSS)を活用した運用管理ソリューションであるSHERPA SUITE(シェルパスイート)の運営事務局です。SHERPA SUITEは、SHERPA-IR(イベント制御)・SHERPA-SM(インシデント管理)・SHERPA-JB(ジョブ)ソリューション群の総称となり、システム運用におけるコスト削減及びサービス品質を向上します。SHERPA SUITEについてはこちら。
  • 詳細の説明、見積もり依頼などまずはお気軽にお問い合わせください。
  • 050-5212-3731
  • 050-3383-4186