エンジニアの障害経験値による強力スキルアップ

Pocket
LINEで送る
GREE にシェア
LinkedIn にシェア

最近ベンチャー企業の方とお話する機会が多く、商品説明を受けている時に「今まで障害を起こしたことは一度もありません」と自慢げに自信たっぷり言われますが、実はとんでもなくコレが危険だと言う事を敢えてお伝えしているという本当にあるある話です。

障害の無いサービスは無い

eyes-730749_1280

開発に携わる人であれば、開発工程における事故と言うのは、数多く経験していると思いますが、ある時はスケジュール遅延における現場での事故や、開発を進めるにつれて、想定外の事象が発生し、設計書に書かれていない為、急遽想定外の作業が発生してしまうお祭り的な事故。

これらの事故は障害とは呼べません、何故なら障害は「運用」が始まってから発生するのです。

そして、運用が開始してからの「想定外」障害について、経験がない人は、「想定が甘い」という事でお伝えしてます。

全てが想定通り動くのであれば、全く問題ないですが、そんな簡易なサービスは世の中には非常に少なく、多くのサービスは、必ずボリュームも存在するし、時事による仕様の変動だったり、インターネットに有りがちな機器トラブルなど、様々な障害が想定されますが、サービス稼働時からこれらの事象に対応できているというケースもそんなに多くない印象です。

想定外はPDCA

healing-1547909_1280

もちろん、人の考えた内容でのサービスであれば、想定外は必ずと行っていいほど発生します。
僕のメインである、WEBツールなどの場合は、インターネットブラウザというどんどん進化していくだけの道具がそれ自体もバグを含んでいるかもしれないし、ある日突然仕様自体を買えられてしまうというリスクが付きものの世界です。

こうした事象に対してキッチリ想定内にしておくという事は重要かもしれませんが、実際に障害が発生してから迅速に対応し、素早く対応が完了するという事が非常に求められる事も多いかもしれませんね。

障害対応記録

type-1161952_1280

・サーバー機器が高負荷により、ダウンする
・サーバー機器が外部からの攻撃によりダウンする
・サーバーに設置するプログラムのコーディング不具合
・その他使用検討外の事象

これらの障害は、経験しなければ、なかなか危機感も上がってきません。
インターネットでサービス提供する際に、最近では各種クラウドサーバー、AWS、Google、Microsoft・・・こうした便利なサービスを使えば機材などなくても簡単に安くウェブサイトを立ち上げられます。
しかし、こうしたクラウドサーバー自体がサーバー障害を発生させてしまったら・・・という対応が初期で検討されているケースは非常に希です。

中でも、サーバーにおいては

・メモリ不足
・ストレージ不足
・外部アタック

などについては、初回で検討しておく内容かもしれませんね。

障害経験はしたくないもの

man-932840_1280

誰もがクレーム対応や障害対応などの3K業務はやりたくないものです。
そりゃあそうですよね、
でも実は、この経験をした者こそが、危機管理能力を含む、堅牢なシステムへの貴重なステップとなるようです。
会社にいる中年層の人に聞くと、若い頃にやっちまった過ちを武勇伝の如く語る人が多いと思いますが、当時は生きている心地がしないぐらいの失敗も少なくないでしょう。
実はこういう障害経験って金を出しても経験できるモノではないので、障害当日は非常に辛いでしょうが、1年後はそのスキルを有した笑い話になっているはずです。
進んで障害を出す必要はありませんが、障害をダサない仕組みを他人が組み上げたシステムで管理している人は絶対に自分の意見を取り入れる努力は怠らないようにしましょう。
他人が組み立てたシステムで発生した障害で他人事のように対応しているだけの人、数年後に取り返しがつかなくなるのはどちらか考えましょう。

Leave a Reply

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です