システム障害時に役立つ自動連絡先グループ機能とは?(2/2)

運用管理

システム障害時に役立つ自動連絡先グループ機能とは?

連絡方法もメールをはじめ、アラーム音やパトライトの点灯などがあります。特に緊急性が高い障害や即時対応が必要な障害の場合は、昼夜問わず担当者が応答するまで電話連絡をし続けなければならない場合もあります。監視システムの条件設定に、障害通知条件や誰に連絡するのかなどを設定し、迅速にアラート通知がされるようにしておくことは、その後の復旧対応にも影響するため、非常に大切なことです。大切な事は理解しているが、いつ発生するかわからない障害にどう備えるかについて記載します。

SHERPA-IRによる連絡方法の自動化

SHERPA-IRには、「自動連絡先グループ」という機能があります。
これは、メール電文の内容からどの担当者へ連絡するかを自動で判別してくれる機能となっています。メールの受信時間をトリガー(起点)に連絡先のグループを日中帯、夜間帯などに分けて振り分けて判別してくれます。担当者の勤務に合わせた設定が可能です。

これにより、発生時刻を運用者が意識する必要が無くなり、今まで行っていた障害発生時間ごとの担当者の連絡先の確認作業や余計な管理簿も不要となります。また、連絡先グループを公開する事で、電話番号や電話する順番などをユーザ側に委ねる事も可能です。

時間帯や障害内容によって、日中・夜間・緊急連絡先などの連絡先グループごとに分け、連絡手段もメールや電話・チャットなど可変で指定・実行してくれるので、煩雑な手動作業が不要となり、かつTwilioなどの自動電話サービスと連携することも可能となりました。

障害復旧後の再発防止が大事

大事な事なので、もう一度おさらいします。障害発生時の業務フローでも説明しましたが、障害対応は復旧したら終わりではありません。障害原因を分析し、今後再発することがないように防止策を講じることが安定したシステム運用・保守に必要となります。
万が一、同じ障害が起こったとしても迅速に対応できるよう障害復旧から得たことをもとにマニュアル化・関係者と共有する体制が非常に重要です。

障害発生時に素早く対応できる体制構築

現在、コスト削減をはじめ働き方改革の断行や人員が思うように確保できないといった状況に置かれており、少ない人員で効率よくシステム運用・保守を行うことが強く求められています。

少ない人員で障害に素早く対応するためには、障害アラート通知が誰に・どのように共有されるのかといった体制がしっかり作られているかが障害対応のスピードを左右します。

業務が増大傾向にある中、素早く対応できる体制を整えるには、自動化できる部分があればシステムを導入することも解決の一助となります。

SHERPA-IRとは

SHERPA-IRは、アラートメールの制御をはじめ多様なシステム運用監視ツール・ログシステムなどの異なるフォーマットのアラートメールを所定のフォーマットに変換して取り込む機能、取込んだメールを解析し、どのような処理を行なうのか、各種のインシデント管理ツール、ジョブ管理システムなどとの外部連携が可能です。

特に、システム障害が発生した時の自動連絡グループ機能は、前述のSHERPA-IRによる連絡方法の自動化で説明した通り、柔軟な通知設定と連携することで、アラートメールの内容だけでは、障害対応を行なうには不足している場合、その障害内容に関連した担当者情報や障害対応手順書などの情報の追加もできます。

結果的に、担当者の負担を減らしつつ最適な障害手順書なども一緒に通知することでシステム運用・保守の現場が抱える課題に対する業務改善を、今までのシステム運用環境を活かしながらよりよいものへ進化させる様々な機能を兼ね備えています。

SHERPA-IR機能「抽出」
SHERPA-IR機能の“抽出”は、アラートメールを障害の種類や重要度をあらかじめ登録した条件や設定から読み取って内容を抽出する機能です。
SHERPA-IRの機能「振り分け」
SHERPA-IR機能の“振り分け”は、前述の抽出した内容をもとに判断するパートです。最初から整理・分類されていれば、担当者はアラートメールの内容確認の手間が格段に減ります。
これにより障害対応に時間をかけることができます。
SHERPA-IRの機能「自動実行」
SHERPA-IR機能の“自動実行”は、あらかじめ登録した条件に則って処理を実行する機能です。定期的に起きる簡易作業についてはSHERPA-IRが運用者に代わって自動実行します。運用者の負担を軽減し、効率かすることで安定したシステム運用・保守へとつながります。

SHERPA SUITE導入のメリット

SHERPA SUITEは多様なシステム環境に導入が可能で、システム運用に携わる部門の業務に対して負担を軽減することができます。

例えば、オペレータのアラート内容確認や、同一アラートの集約、障害担当者の手順書確認作業といった処理を自動化することで、重度のシステム障害が発生したときに素早く対応できるようになります。結果的に復旧のスピードアップや顧客のリスクを最小限にとどめます。

分散して運用していたものをSHERPA-IRのルールに取り込み、効率の良い運用・保守ができるようになれば少ない人員でも効率よく対応できます。働き方改革をはじめ、運用改善にも繋がります。もちろん、クライアントや顧客の信用を損なわず、安定的なシステム運用・保守ができますので長い目で見た時にコストの点でも非常に有用だと言えます。

システム障害時に役立つ自動連絡先グループ機能とは?の記事を読みなおす

SHERPA SUITE
監修 SHERPA SUITE運営事務局 オープンソース(OSS)を活用した運用管理ソリューションであるSHERPA SUITE(シェルパスイート)の運営事務局です。SHERPA SUITEは、SHERPA-IR(イベント制御)・SHERPA-SM(インシデント管理)・SHERPA-JB(ジョブ)ソリューション群の総称となり、システム運用におけるコスト削減及びサービス品質を向上します。SHERPA SUITEについてはこちら。
  • 詳細の説明、見積もり依頼などまずはお気軽にお問い合わせください。
  • 050-5212-3731
  • 050-3383-4186