あらかじめ、障害の検知条件・対応フロー・インシデント登録の条件・アラート通知の手順を設定しておけば、ある程度の障害に関しては担当者の手を煩わせることなく自動復旧をすることが可能となります。
SHERPA-IRによる障害通知と復旧通知の自動登録
SHERPA-IRは、システム障害を通知するアラートメールの制御をはじめ、様々なシステム運用監視ツールやログシステムなどの異なるフォーマットを変換しメールを取込んで、システム運用ルールに基づき、内容を判定し必要な処理を実行後、インシデント管理ツールに対し障害チケットの作成指示を行います。また、既知の処理を自動実行させるためにジョブ管理システムなどと連携することが可能です。
また、チケット作成指示ではアラートの電文内容から障害チケットに記述すべき項目を自動で抽出するだけだけでなく、アラート電文には記載されてない障害対応に必要な担当者情報や障害内容に該当する手順書情報等を付加することも可能なため、担当者はチケットを見れば障害対応作業に必要な情報がそろっている為、直ぐに障害対応に取り掛かることが出来ます。
- 自動復旧できない場合には?
- 自動復旧できない場合は、重大な障害であるか、イレギュラーな状況が発生していると考えられます。自動復旧で対応できない部分に担当者が注力することによって効率よくシステム復旧に向けた体制を組むことも可能になります。
- SHERPA-IRアラート復旧フィルターによるインシデントの自動登録
- SHERPA-IRは、障害を感知してインシデントの自動登録を行うまでの間に重複するものを判別し、効率よく管理することができます。
あらかじめ、自動登録する条件設定をしておくことで不要なものをフィルタリングして重複したインシデント登録を防いでいます。
- エンジニアへの連絡の自動化
- エンジニアへの連絡も、SHERPA-IRは自動化可能です。
障害の内容によって、どのエンジニアへ連絡するのかに関しても設定可能ですので担当者ごとに効率よく障害復旧に対応することが可能になり、効率のいい体制を組むことができるようになります。
重大な障害に注力できる環境を作ることは、メリハリの利いた働き方を実現することにもなります。昨今叫ばれている働き方改革にも繋がり、担当者の満足度向上にも繋がれば優秀な人員の定着化にもなります。
- エンジニアによる影響範囲の確認と対応
- 自動復旧できない障害に関しては、エンジニアが手動で対応することになります。
自動復旧できないということは、定義要件に見当たらないイレギュラーな障害であるため、ひとつずつ丁寧に原因を紐解き、対応していくことが重要となります。エンジニアは即座に影響が及ぶ範囲を特定し、リスクが最小限になるよう対応をとっていくのです。
同時に、今後の運用・保守に向けたデータ収集と対策にも活かされます。
- SHERPA-IRの障害通知への柔軟なルール設定
- SHERPA-IRは障害通知の条件設定について柔軟なルール設定が可能です。一般的に、障害を見落とすことを恐れて条件を厳しくすることが原因でインシデント登録やアラート通知が増える傾向にありますが、SHERPA-IRは細やかな条件設定が可能となっていることで重要な部分を重点的に条件設定し、担当者への通知に関しても担当者ごとに設定できます。
SHERPA-IRとは
一般的なシステム運用・保守の現場では、手順書の見直しなど操作に関する改善は積極的に行われていても、運用を含めたトータルな改善までとなると時間が足りず手を付けることができていません。
インシデント発生から障害対応の完了までの間には様々なステップがあり、自動化できる部分は自動化できれば担当者も楽になりますが、現実にはマンパワーに頼った運用をしているのが実情です。人の手を介することは、作業が煩雑で多くなるだけでなく、時間がかなりかかってしまいます。結果的にミスを誘発しやすい環境になってしまい、リスクも増大してしまっているのが現実です。
1次的な運用対応プロセス業務をSHERPA-IRを導入し、自動化することで今までかかっていた時間と労力を大幅に簡略化し、担当者が迅速で確実な復旧に取り組むことができるようになります。
担当者が迅速に復旧作業に集中できれば、結果的に安定したシステム運用にも繋がります。
他にも、問合せメールから情報を拾い、フィルタリングしてRPA(ロボットプロセスオートメーション)と連携するなどのカスタマイズも可能です。オペレーションの自動化で、効率化・高品質化・コスト削減の一石三鳥が実現します。
SHERPA SUITE導入のメリット
SHERPA SUITEを導入するメリットは、今までシステム運用・保守の現場が慢性的に抱えていた煩雑でミスしやすい作業を自動化することで業務を効率化し、担当者がより優先順位の高い作業に集中することができるようになることです。
担当者が重要度の高い業務に集中できることで、障害が起こっても迅速な対応が可能となり、リスクを最小限に抑えることができます。リスクの最小限化がシステムの安定運用につながり、お客様満足度の向上やクライアントからの信頼をより得ることができるでしょう。
もちろん、担当者の負担削減からミスの削減・少ない人員での運用、残業をはじめとする運用コストも軽減できます。