ネットワーク障害から復旧時に効果的な復旧通知とは?(1/2)

運用管理

ネットワーク障害から復旧時に効果的な復旧通知とは?

近年のネットワーク接続を前提としたシステム環境では、ネットワーク障害が発生し停止すれば、社内業務や、提供するサービスに大きな影響を与えることになります。

企業では、障害に備えてネットワーク機器や回線を冗長化し、ネットワークが停止しないように努めていますが、ネットワーク機器の故障や、高負荷状態による通信障害など、万全な対策をしていても、完全に障害を防ぐことはできません。

この様に、ネットワーク障害が発生した場合にも、障害影響範囲を最小で抑えるために、ネットワーク監視環境を導入し、迅速に対応できるシステム運用・保守体制を整備することが重要となります。

複雑化・広範化したシステムの障害を即座に検知するのに役立つのが、ネットワーク監視システムです。
ネットワーク監視では、ネットワーク監視対象の状態変化や障害を検知するとアラートが通知されます。

この時、ネットワーク特有の瞬断や一瞬の閾値越えの状態に対してアラートが通知される場合、障害対応しなくてもよい場合があります。

これらの状態を判断する場合、ネットワークエンジニアなどの判断が必要なフローがあると、アラート内容確認からシステム担当への連絡や、復旧作業の対応の遅れにも繋がってしまいます。

弊社が開発したアラート制御ツール SHERPA-IRは、運用現場の処理ルールに従って、ネットワーク障害特有の判定やアラートメール処理を行うことが出来ます。

障害発生時の対応の流れ

ネットワーク障害が発生した場合、的確な対応をするためには、日頃からネットワークを構成する機器をそれぞれ監視して、機器の稼働状況を把握し、更にネットワーク構成を可視化することでが大切です。

具体的には、ネットワークトポロジーや運用している対象システムの設定情報、ライセンス情報、データセンター情報などについて最新の情報を把握しておくことから始まります。

また、障害内容により、重要度、連絡先部署や担当者・連絡方法、対応内容、手順書などが異なってきます。

ネットワーク障害が発生すると、障害通知されたアラート内容や箇所のログなどを取得し、障害内容を確認します。また、障害は多くの場合、障害が発生した箇所だけでなく、関連箇所に影響が出ることも多く、併せて確認することが必要となります。
更に、障害が発生したシステムの利用者への、速やかな通知も必要となります。

ネットワーク障害によるシステムへの影響を最小限に抑えるため、担当者により該当手順書に沿った一次対応を行います。一次対応でも復旧できない場合は、エンジニアにエスカレーションし、手動での対応(二次対応)となりますが、すぐに根本的な解決策ができない場合には、発生したインシデントに対して、ワークアラウンドによる一時的な応急処置を行い、後日、問題管理において問題の根本原因を見極め、恒久的な対応策を検討します。

この様な流れで、インシデントの再発を防止し、ビジネスへの影響を最小限に抑えることができます。

監視システムによる自動復旧

リソースを潤沢に持ったシステム運用部門の場合は、発生する障害全てをエンジニアが対応することで、迅速にミスの少ない障害対応を目指し実施している企業もありますが、一般的にはシステム運用部門の人手だけでの対応は人員的にも非常に困難なため、手順書に基づき1次オペレータが手動で対応するか、手順化できる障害に関しては監視システムによる自動復旧がおこなわれます。

監視対象で、監視設計の段階で定義した障害が発生した場合や、ログ監視で特定のパターンと合致した場合、監視システム側で障害発生機器の再起動を行い、自動で復旧を試みるにしておきます。

ネットワーク特有の障害に対する必要な対応

ネットワークでは瞬断する場合があります。障害が発生した場合、監視ツールはアラートを通知しますが、
ネットワーク環境では瞬断が直ぐに復旧する場合があります。 しかし、瞬断している間、監視ツールからはアラートが重複して発報され、監視ツールとインシデント管理ツールを自動連携している場合、瞬断の間のアラートがチケットとして重複登録されます。

この様な場合、現場ではオペレータ担当者は同一アラートの集約作業と、手順書に記載の指定時間内に瞬断に対する復旧が行われたか復旧通知が来るのを待って、時間内に復旧した場合には、該当障害を破棄する手間が発生します。
既知の障害の場合には、オペレータの手作業ではなく、作業時間の短縮とミスの軽減から自動処理で復旧を行なう場合もあります。

また、大規模障害である回線やコアスイッチ等の障害の場合、想像も出来ない程の大量アラートが短時間に通知されます。
この様な場合、現実的な処理としては、即座にネットワークエンジニアに通知を行い、大量アラートの通知を止める処理と復旧作業に取り掛かります。

障害発生から復旧までの自動化フロー

障害発生から復旧までの自動化フローとして、障害検知・インシデント管理・アラート通知・自動復旧に関してはシステムを導入することで自動化できます。

ネットワーク障害から復旧時に効果的な復旧通知とは?の記事には続きがあります

SHERPA SUITE
監修 SHERPA SUITE運営事務局 オープンソース(OSS)を活用した運用管理ソリューションであるSHERPA SUITE(シェルパスイート)の運営事務局です。SHERPA SUITEは、SHERPA-IR(イベント制御)・SHERPA-SM(インシデント管理)・SHERPA-JB(ジョブ)ソリューション群の総称となり、システム運用におけるコスト削減及びサービス品質を向上します。SHERPA SUITEについてはこちら。
  • 詳細の説明、見積もり依頼などまずはお気軽にお問い合わせください。
  • 050-5212-3731
  • 050-3383-4186