システム運用や保守という言葉は、IT関連の仕事が広がるにつれて耳にする機会が多くなりました。
しかし、これらの業務についてしっかりと理解している人はIT業界にいる人でも案外少ないものです。業務をしっかり理解していないと、依頼する側も、業務を遂行する側も認識の相違でトラブルに繋がってしまうこともあります。
システム運用とは?
まずシステムの定義を説明します。システムとは集合体です。不特定の要素が集まった組織や体制をシステムと言います。会社で言うと社員が集まる場所は部署ですが、コンピュータに置き換えるとシステムとなります。このシステムの要素はサーバーやネットワーク機器といった精密機械です。当然不具合が発生する場合もあり、状況によってはサーバー停止となることもあります。
こうしたトラブル(システム障害)を未然に防ぐために、運用担当のシステムエンジニアが重要な役割を果たします。エンジニアは障害を未然に防ぐために様々な知識や技術を駆使し運用に携わります。万が一に備えてバックアップを取るようなシステム構成を考えたりします。このようにシステム運用は、システムを正常に保ち、状況に合わせた対応を取ることを意味します。
システムを24時間365日、正常にシステムを稼働させるためには、次のポイントが必要となります。
安定稼働させるための管理
システム障害が発生すると、大きなダメージが発生するためです。
障害が起こらないように運営
ハードウェアとソフトウェアそれぞれに対する信頼性が増している一方で、システム構成が拡大・複雑化しているため、障害が発生してしまうと後手に回ってしまうためです。
システム運用における課題
現状のシステム保守運用に関する課題としてどのようなことが挙げられるでしょうか。制御・インシデント管理・ジョブ管理の点から考察してみました。
メールの内容を分析して該当する担当者に振り分けます。
必要な情報をタスクボードに自動で作成するので、担当者はすぐに回答作業に入ることが可能です。
システム保守とは?
システム保守の役割はシステム改善とメンテナンスです。既存システムより良くするためにアップデートしたり、不具合を解消したりします。また、保守の仕事には定期的にメンテナンスをして正常に保つ作業もあります。システム保守は開発や運用と比較してサービス利用者に一番近いので利用者目線で取り組むことが大切になります。
どのサービスもシステムのメンテナンスのために定期的にサービス停止をします。定期メンテナンスは主に深夜帯に行われますが、サービスの安全稼働を実現するために大切です。メンテナンスをしない期間が長くなればなるほど、システムトラブルが発生する確率は上がります。
システム運用と保守の違い
お客様には実際に、よくわかりづらいと言われます。確かにそうかもしれません。システム運用の主な担当は、システムが正常に稼働するための「監視」です。システム保守の主な業務は不具合の「改善」と定期的な「メンテナンス」です。自分の仕事がシステム運用保守の場合、平常時は運用業務を行い、何らかの不具合が発生すれば保守業務に携わる形で業務を担当します。このようにシステム運用と保守を兼ねるケースが多いでしょう。
なお、システム監視とは、システムの稼働を確実にし、安心して利用できるように確認することです。システム内で動作しているサーバー、アプリケーション、ネットワークなどの稼働が正常かどうかを確認し、発生したシステム障害やトラブルを察知して管理者へ通知します。
このようにシステム運用はシステムトラブルが発生した時に迅速に対応し、システム保守は定期的な業務に分類されます。正常なシステム稼働には、運用・保守など全業務を駆使し、ITシステムの安定のためにインフラ環境を整備し、安定稼動を実現します。
システム運用における仕事内容
システム運用はシステムを正常に作動させるために必要なプロセスです。
保守や管理をエンジニアが行い、日常のあらゆるビジネスシーンになくてはならない業務です。
システム運用の仕事内容は次の6つになります。
- システム監視と障害対応
- セキュリティ管理とデータのバックアップ
- 運用方法の考案とシステム改善の提案
- ユーザーサポート
- ドキュメント管理
- コスト管理
システム監視
システム監視の役割はサービスやインフラ基盤の問題点をいち早く発見することです。
一言でいうと定期的にシステムの稼働状況を確認する作業です。
システム監視は現代ではビジネスの根幹にかかわると言っても過言ではないでしょう。
システム監視にはインフラ監視とサービス監視の2つに分かれ、監視すべき項目は7つあります。
- Ping監視
- Prot監視
- URL監視
- SNMP監視
- リソース監視
- ログ監視
- プロセス監視
システム監視は、システムで発生した障害やリソース不足を検知してシステムの管理者に通知する仕組みを構築します。
トラブル発生時の記録
トラブルが発生した場合、その状況を記録して改善につなげます。
トラブルが発生したら「システム障害報告書」を作成し、発生した障害の状況を記録します。
報告書により何が起こっているかを顧客に連絡したり、回復の目処を知るために使われます。
具体的には以下の6つです。
タイトル:障害の概要をわかりやすく簡潔にしたもの
- 障害の発生日時
- 障害の復旧日時
- 障害の内容
- 影響する範囲
- 経緯
- システム障害報告書は関係者や社内の正確な情報共有や再発防止のために必要です。
トラブル発生要因の究明・対策
使われているシステムは日々、複雑化している一方、人的ミスが起こりやすくなっています。
そのミスを防ぐには次の2つが重要です。
- 間違った合理化をしない
システムにはコストがかかります。担当者はどうにかコストを削減できないかと試行錯誤しています。仮に情報システム部の社員を減らしてアウトソーシング化を図っても数年経過すれば、詳しい社員はいなくなり対応ができなくなる可能性があります。
- 何度も問いかける
トラブル発生時には対策を考える必要があります。トラブルの原因を調べずに対処法だけでしのぐのはトラブルの抑制にはなりますが、解決にはなりません。
運用方法の提案
システム運用ではシステムの安定稼働が最も重要な課題です。その答えは運用業務の自動化にあります。それには現状の運営だけでなく、継続的な改善やシステムの最適化が鍵を握ります。企業に求められるIT人材は年々、枯渇していきます。
経済産業省によると2030年には最大で約79万人が不足するとの予測が出ています。
さらに作業手順を必ず作ることによって専任担当者が不在でも他のIT人材が対応する際、困ることがありません。
作業手順がないために対処が遅れて損失を生むことが防げます。
また、担当者のサポートをより強化してビジネスパフォーマンスの向上と維持に努めましょう。
システム運用における運用方法
システム運用はやり方次第でビジネスパフォーマンスを大きく変えることができます。
オンプレミス型
自社の管理施設にサーバー機器やネットワーク機器を導入することにより、システムを構築する形態です。
オンプレミス型のメリットは強固なセキュリティ体制の構築ができること、そして機能拡張やシステムの連携に自由度があります。
一方、オンプレミス型のデメリットは3つです。
- 導入コストの高さ
- 保守・メンテナンスへの負担
- 外部アクセスへの繁雑さ
サーバーやネットワークを自社で準備する必要があり、自社環境に合わせた開発が必要になります。
導入コストも高額になり、構築までにある程度の期間がかかってしまいます。
クラウド型
オンライン上で提供されているシステムやサービスを介して利用する形態を言います。
クラウド型は自社サーバーやインフラ環境を用意する必要がなく、コストを低く抑えられ、スムーズに利用ができます。最近では多くの企業が利用しているシステムです。
クラウド型のメリットは4つあります。
- コストを抑えられてスムーズに利用できる
- 保守やメンテナンスの必要がない
- 外部へのアクセス設定が容易にできる
- システム運用管理の種類
システム運用管理の種類には以下の3つがあります。
ネットワーク管理・システム管理・業務運用管理です。
ネットワーク管理
社内で構築されたネットワーク環境を運営・管理することです。
システム管理
情報システムがスムーズかつ正常に稼働しているか管理します。
業務運用管理
これまでしていたネットワーク管理やバックアップなど、システム管理全体を管理することです。
システム運用は、なぜ重要なのか
システム運用はビジネスパフォーマンスを向上させるためには必要不可欠です。
例えば、平均が0.2秒のレスポンスのシステムとその半分の0.1秒のレスポンスのシステムとでは2倍の生産性の高いビジネスを発揮することが可能です。システムが「毎日安定して稼働している」ことが最も重要と言えます。ですから、システム運用を疎かにしてきた企業はそれだけ生産性を損なってきたことになります。
システム運用に必要な資格、スキルについて
システム運用・保守に求められるスキルとして、次のようなスキルが挙げられます。
求められるスキル
担当システムを熟知していること
システムがきちんと稼働しているか判断するために、担当しているシステムを熟知している必要があります。担当しているシステムについては誰よりも知識がなければなりません。
観察・分析力
システムを安定的に作動させるには、定型業務があります。
普段の定型業務の中で、全体の状態を把握する観察力、課題を発見・分析するスキルが必要です。
コミュニケーション能力
トラブルなどが発生すると、利用者からの問い合わせ対応を行なう場面も多くあります。
システムに詳しくない利用者が持っている疑問を正しく判断して聞き取る力が必要です。また、解決方法をわかりやすく伝える力も求められます。
もちろん、運用・保守を仲間と一緒に作業を行なうこともあります。部署の内外とのやりとりは非常に多いため、スムーズなコミュニケーション能力は必須です。
システム運用におすすめの資格
これといった必須の資格はありませんが、持っていると役立つ資格はあります。
そこで、システム運用の業務に携わる際におすすめの資格を紹介します。
基本情報技術者
基礎知識から身に付けたい方におすすめです。国家資格のため、ITの基礎知識が身に付いている客観的な証明となります。また、将来的に色々な業務へ応用も可能です。
LPIC・LinuC
どちらもLinuxに関する資格です。
LPIC(Linux技術者認定試験)は Linuxに関する技術を証明する資格。Linuxは現在様々なシステムで使われているため活躍の幅が広がります。
LinuC(Linux技術者認定資格)はLinuxの認定試験を実施しているLPI-Japanによる認定試験です。クラウド、オープンソースのリテラシー、システムアーキテクチャの知見、の3つのスキルを証明できる内容となっています。
CCNA・CCNP
シスコシステムズが提供しているベンダー資格で、シスコシステムズ社の製品知識をはじめ、ネットワーク全般について問う内容となっています。ネットワークの運用・保守に関する技術があると証明するのに役立ちます。
AWS認定
システムのインフラにクラウドを使う場面も増えたため、知識を持っていると重宝されます。
クラウドを利用したシステムでは、監視や負荷に合わせサーバーの追加削除をクラウド上でできます。例えばAWSなら、CloudWatchを使って監視や復旧が行えますので、従来のシステムと変化する場合があります。
今後、システム運用の現場でもクラウド系の資格が重宝されると考えられるためです。
SHERPA SUITE(シェルパスイート)で課題解決
現場によって程度は違いますが、抱えている問題はどこも似通っています。これらの悩みを解決できる手段があればいいと思いませんか?
現場が抱えているさまざまな悩みを自動化し、システム運用担当者の手を介することなくある一定の処理まで行います。
今まで担当者が手動で行っていた業務の一部を自動化することで正確で確実な処理を実行し、担当者がより優先順位の高い業務に集中できる環境を整えていきます。
結果的に、システム運用が安定し、安定した運用が継続的に行えることでコストの低減も図っていくことが可能です。
SHERPA SUITEのSHERPA-IRとSHERPA-SMは、どちらも現場のシステム運用を支えるシステムで課題解決の手段の一つとなります。
SHERPA-IRとは
インシデントの対応は時間勝負です。一般的な現場では手順書の見直しなど、操作に関する改善は行われていても、運用を含めて改善されていません。
インシデント発生から完了までは様々なステップがあり、担当者に頼った運用をしているのが実情ですが、作業が煩雑で多くなり時間がかなりかかってしまいます。ミスも誘発しやすい環境となり、リスクも増大してしまっているのが現実です。
1次的な運用対応プロセス業務をSHERPA-IRで自動化することで時間と労力を大幅に簡略化し、担当者が迅速で確実な復旧に取り組むことができます。
担当者が迅速に復旧作業できることで、結果的に安定したシステム運用にも繋がります。
他にも、問合せメールから情報を拾い、フィルタリングしてRPA(ロボットプロセスオートメーション)と連携するなどのカスタマイズも可能。オペレーションの自動化で、効率化・高品質化・コスト削減を実現します。
SHERPA-SMとは
SHERPA-SMには、大きく分けて2つの機能があります。
- 監視ツールからのアラート管理
- 監視ツールから障害通知をチケットとして自動登録、担当者の手間を大幅に削減します。
対応記録を残し、現状把握につなげることで長期的な業務改善ができ、生産性向上が実現します。
また、対応の進捗状況・対応件数を管理して記録を残せますので、障害復旧の工程を可視化できます。
- 利用者からの問合せ管理
- システムの利用者からの「画面が表示されない」、「ボタン表示されない」といった問い合わせは、日頃のシステム監視だけでは把握できません。
不定期に、電話やメールで問い合わせが来るのが現実です。こうした問い合わせを一元管理することができます。対応履歴だけでなく、証跡を残せますので今後の対応品質の向上などに活用可能です。
SHERPA SUITE導入のメリット
SHERPA SUITEを導入することで、今まで現場が抱えていた煩雑でミスしやすい作業を効率化し、担当者がより優先順位の高い作業に集中することができます。
結果的にシステムの安定化につながり、お客様満足の向上・担当者の負担削減・今までかかっていた時間や人員確保などのコスト削減につなげることが可能です。