システム不具合の対応方法、開発員に問われるスキルとは?

2015年3月3日

エンジニア ビジネス 日記

会社の商品で不具合が発覚した。 いつもは明るい、担当のエンジニアが血相を変えて対応している。

不具合の詳細

某業界の、データ転送システムで、入力されたデータを、大手ポータル会社に、画像や、かなりの量の詳細データを転送する仕組みで、 営業中の午後に、データ入力をしている客からの電話でそれは発覚した。 一週間ほどデータが転送されていないのだそうだ。

事実調査

担当エンジニアに一報が入った時には、エンジニアは、顔を青ざめ、事象が起こることを知っていたかのように、即座に反応した。 実は業界は、年始のこの時期に繁忙期を迎え、データ登録量が、段違いに増えるらしい。 そして、データ転送がされていない事実が確認された。

対応処置

本来の業務は後回しで、先ずはプログラムレベルでの原因調査を行い、判明した所で、修正作業に入った。 待っている顧客もいるので、期限は本日18時となった。 今は、11時なので、営業時間一杯でケリをつけなければならない。 ただ、システムを把握している開発員であれば、1日あれば十分である。 ただ、これから3ヶ月ほどは繁忙期という事で、同じ量のデータが送られてくるので、その量に対応できるシステムに作り直さなければならない。

無事に修正完了

詳細な修正箇所の説明があり、今現在の安定運用が報告された。 1週間程は、随時待機で、何かあれば対応できる状態にすることで、事なきを得た。 ようやく、担当開発員の顔に笑みが戻った。

ここからが大事

開発員は完了した気分でいたが、僕のASPサービスの経験では、ここからが勝負でした。 まず、このシステムの、対応上限値は、一体、どの位のデータ量なのか? と、担当開発員に聞いてみたところ、 一言目は、「分からない」との事。 少し考えて、「今まではうまく動いていました」と、付け加えてきた。 「この商材は、繁忙期になると、落ちても仕方のないシステムだ」と、 僕が客なら怒っているだろう。 さらに、今回の問題で、データ不調が発生してから、1週間もの間、会社内の誰も気がつかないということが、金を取っているシステムでは考えられなかった。 データ転送は、システムが定期的に自動バッチで行っており、 念のために転送バッチ後に、データ転送の確認バッチというのが走っていた。 そして、毎回、その結果ログが、その部署全体のメーリングリストに配信されていた。 10人近くの人に、ログメールが配信されていたにもかかわらず、誰も1週間も気がつかなかったのだ。

見ないことが習慣化されていた

話を聞いてみたところ、ほぼ、全ての人が、昼夜問わず、数時間おきに、大量のデータが転送されてきていて、読まずに、メールの自動振り分け機能で、受信箱から、移動されていたのだ。 間違いなく、感覚がおかしいし、事故は、起こるべくして起きていた。

問題解決に向けて

まず、このメールとは別に、障害検知の仕組みを導入することにした。 担当開発員は、知恵が回らないらしく、僕の提案にハテナ顔をしている。 「今現在送っているメール以上の情報は取れません。」との事。 この状態で、また運用を続ければ、必ず同じ障害が発生することは間違いないので、僕が手を貸すことにした。 取るべき対策は、 現在送られてきているメールをログとして、ログの異常値を検知し、 担当者の携帯電話にアラートメールを直接送信する、仕組みだ。 幸い、GoogleAppsを使っていたので、メールスクリプトを書けば、かなりの振り分けが出来るはずだ。 取り敢えずそこまで説明して、ようやく全員が理解できたようで、 全く、「無知の無知とは、怖い」と、改めて思い知らされた。 よくある、開発員の思い込みによる、システム制度の低さが原因でした。 その開発員も、この対応を機に、一段階レベルが上がってくれることを祈る。

このブログを検索

ごあいさつ

このWebサイトは、独自思考で我が道を行くユゲタの少し尖った思考のTechブログです。 毎日興味がどんどん切り替わるので、テーマはマルチになっています。 もしかしたらアイデアに困っている人の助けになるかもしれません。