本当の運用とはサイクルを作り、つなげること
前回、「運用とは、企業の身の丈に合ったサービスが提供できるように、システムのライフサイクルを管理することである」と述べました。これを徹底するためには、将来を見据えてシステムの改善を続け、次の開発につなげられるような運用設計が必要になります。
システム運用は、「監視」「対応」「分析」「改善」「拡張」「刷新」といったキーワードに分割することが可能です。中でも必要最小限の運用サイクルとしてまず重要なのが、「監視」⇒「対応」⇒「分析」⇒「改善」です。
これらの運用サイクルを回していくと、その過程の中で新たな監視ポイントや情報収集ポイントが増えていき、次第に問題の原因が絞り込まれるようになります。ただし、このサイクルだけでは「障害待ち」になり、障害を予防することはできません。こういった「障害ありき」のサイクルから脱却するには、「監視」⇒「分析」⇒「改善」のサイクルを定期的に組み込む必要があります。「障害が発生したから対応する」という明確な起点がないため難易度は上がりますが、例えば当月分と前次分のデータを比べて、その差異から分析していくといった手法が考えられます。原因が突き止められればそれに合わせて調整を行い、原因が不明なままであれば監視・情報収集ポイントを増やしておくのです(改善)。
また、システム運用を続けていくと、ユーザー数や情報が増大するので、いずれシステムリソースを追加したり、現状に合わなくなったアプリケーションを改修する必要が出て来ます。その場合は「監視(対応)」⇒「分析」⇒「拡張」のサイクルに入ります。例えば、ユーザー数の増大に対応するには、アプリケーションをチューニングしてより処理効率を上げたり、Webサーバーの台数追加を行うことが考えられるでしょう。データを分析すれば、どの部分を拡張すれば良いのかはわかりますので、システムリソース不足による障害などは、次第に未然に防がれるようになっていくでしょう。
また、通常のシステムには寿命がありますし、OS、ミドルウェア、アプリケーションにも寿命があります。特にアプリケーションは「拡張」を続ければ延命はできますが、プログラムは肥大化し、処理内容は複雑化していきます。担当者や責任者が何度も替われば、全体像を把握している人はいなくなるかもしれない。そんな時に深刻な障害が起これば、ビジネスに致命的なダメージを与えるかもしれません。これを避けるためには、「監視(対応)」⇒「分析」⇒「刷新」のサイクルが必要になります。「刷新」は新しいシステムの導入においては最初の段階となるプロセスです。「刷新」まで計画に組み込んでおくことができれば、新システムを導入せざるを得ない時が来ても慌てる必要はありません。
繰り返しになりますが、システムのライフサイクルを管理するのが運用担当者の仕事です。これらの運用サイクルを少しずつ回し、つなげることで、必ずシステムは良くなっていきます。良いサイクルが生まれれば、自然に周囲もついてくるはず。運用担当者には、サイクルがつながる醍醐味を味わってもらいたいものです。
また、的確な統合管理運用ツールを利用すれば、監視・分析・対応・改善などのサイクルを業務の中に容易に取り入れることが可能になります。