人的ミスの予防と対応
企業内ネットワークは様々な機器がつながって形成されています。最近ではクラウドサービスの台頭で社外のネットワークとつながっている場合も多いでしょう。
ネットワークは規模が大きくなるほどネットワーク機器、サーバー、パソコンといった関連機器の台数が増えます。それだけ障害が起きる件数も増加します。しかも、トラブルの原因はネットワーク機器だったり、ルーターだったり、ネットワーク用サーバーだったりと、バラバラです。しかし、ここでは「人的ミス」に注目したいと思います。なぜなら人的ミスが原因のトラブルは予想以上に多いからです。
人的ミスを思い浮かべてみると、ケーブルの断線、設定の保存忘れ、ネットワークループ(ケーブルの接続間違い)、運用中のルーターにdebugコマンドを打ち込んでしまった等々、様々なケースが考えられます。人的ミスはマシン側で補完できないものも多いので、使う人間が気を付けるしかありません。
では、誰がミスをするのでしょうか。これはネットワークの運用者とエンドユーザーに分けられるでしょう。
運用者側でミスをしないためには、運用しているネットワークを熟知することが大前提になります。少なくともTCP/IPの基礎的スキルは身につけていなければならないでしょう。また、日々の運用業務を場当たり的に行っていてはミスが入り込む隙間が大きくなってしまいますので、手順の簡略化・定常化が必要になります。運用手順書を準備したり、作業を複数人で行ってダブルチェックを徹底することも予防に役立ちます。
エンドユーザー側のミスは少々厄介です。エンドユーザーはシステムのことを知らないのが普通なので、どうしてもうっかりミスをしてしまいます。ならばとエンドユーザーを教育しても、配属替えがあれば一からやり直しですし、教えたことを忘れてしまう可能性もあります。エンドユーザー側のミスを減らすには、エンドユーザーが触れる可能性がある機器を限定すること、そして「触るな危険」「勝手にケーブルを接続しないでください」といった貼り紙を貼るといった予防的措置が最も効果的かもしれません。人的ミスを減らすには、こういった「当たり前のこと」を徹底するしかないようです。
人的ミスが起こった場合でも、素早い対応をすれば被害を最小限にとどめることができます。大量のアラートを人がさばいていると重要なアラートを見落としたり、作業ミスが起こったりしますが、適切な統合運用管理ツールを使用すれば、定義に基づいて分類された“対応すべきインシデント”のみを自動的に抽出してくれるものもあるので、運用担当者が素早く対応することが可能になります。