システム不具合の対応方法、開発員に問われるスキルとは?

man-390340_1280
LINEで送る
Share on GREE
Share on LinkedIn

会社の商品で不具合が発覚した。

いつもは明るい、担当のエンジニアが血相を変えて対応している。

不具合の詳細

某業界の、データ転送システムで、入力されたデータを、大手ポータル会社に、画像や、かなりの量の詳細データを転送する仕組みで、

営業中の午後に、データ入力をしている客からの電話でそれは発覚した。

一週間ほどデータが転送されていないのだそうだ。

事実調査

担当エンジニアに一報が入った時には、エンジニアは、顔を青ざめ、事象が起こることを知っていたかのように、即座に反応した。

実は業界は、年始のこの時期に繁忙期を迎え、データ登録量が、段違いに増えるらしい。

そして、データ転送がされていない事実が確認された。

MINOLTA DIGITAL CAMERA

対応処置

本来の業務は後回しで、先ずはプログラムレベルでの原因調査を行い、判明した所で、修正作業に入った。

待っている顧客もいるので、期限は本日18時となった。
今は、11時なので、営業時間一杯でケリをつけなければならない。

ただ、システムを把握している開発員であれば、1日あれば十分である。

ただ、これから3ヶ月ほどは繁忙期という事で、同じ量のデータが送られてくるので、その量に対応できるシステムに作り直さなければならない。

crash-22471_1280

無事に修正完了

詳細な修正箇所の説明があり、今現在の安定運用が報告された。
1週間程は、随時待機で、何かあれば対応できる状態にすることで、事なきを得た。

ようやく、担当開発員の顔に笑みが戻った。

ここからが大事

開発員は完了した気分でいたが、僕のASPサービスの経験では、ここからが勝負でした。

まず、このシステムの、対応上限値は、一体、どの位のデータ量なのか?

と、担当開発員に聞いてみたところ、
一言目は、「分からない」との事。

少し考えて、「今まではうまく動いていました」と、付け加えてきた。

「この商材は、繁忙期になると、落ちても仕方のないシステムだ」と、

僕が客なら怒っているだろう。

さらに、今回の問題で、データ不調が発生してから、1週間もの間、会社内の誰も気がつかないということが、金を取っているシステムでは考えられなかった。

データ転送は、システムが定期的に自動バッチで行っており、
念のために転送バッチ後に、データ転送の確認バッチというのが走っていた。

そして、毎回、その結果ログが、その部署全体のメーリングリストに配信されていた。

10人近くの人に、ログメールが配信されていたにもかかわらず、誰も1週間も気がつかなかったのだ。

Mount_Ontake_from_Kurakake_Pass

見ないことが習慣化されていた

話を聞いてみたところ、ほぼ、全ての人が、昼夜問わず、数時間おきに、大量のデータが転送されてきていて、読まずに、メールの自動振り分け機能で、受信箱から、移動されていたのだ。

間違いなく、感覚がおかしいし、事故は、起こるべくして起きていた。

bratislava-278556_1280

問題解決に向けて

まず、このメールとは別に、障害検知の仕組みを導入することにした。

担当開発員は、知恵が回らないらしく、僕の提案にハテナ顔をしている。

「今現在送っているメール以上の情報は取れません。」との事。

この状態で、また運用を続ければ、必ず同じ障害が発生することは間違いないので、僕が手を貸すことにした。

取るべき対策は、

現在送られてきているメールをログとして、ログの異常値を検知し、
担当者の携帯電話にアラートメールを直接送信する、仕組みだ。

幸い、GoogleAppsを使っていたので、メールスクリプトを書けば、かなりの振り分けが出来るはずだ。

取り敢えずそこまで説明して、ようやく全員が理解できたようで、

全く、「無知の無知とは、怖い」と、改めて思い知らされた。

よくある、開発員の思い込みによる、システム制度の低さが原因でした。

その開発員も、この対応を機に、一段階レベルが上がってくれることを祈る。

Leave a Reply

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です


*