vpsサーバーがいきなりダウンして焦った話

Pocket
LINEで送る
GREE にシェア
LinkedIn にシェア

こんにちわ。
 

下駄です。
 

「VPS」とかけまして、
 

「10月末のイベント」と、ときます。
 

そのココロは・・・
 

カソウ(仮想と仮装)することで、安心できます。

システム監視は重要

インターネットサービスを運営している人にとって、サーバー障害というのは、
 

虫歯のようなモノ。
 

まあまあな頻度で忘れた頃にやって来ます。
 

先日、自宅でくつろいでいる時に、システム障害を報告していくれるサービスから、障害報告のメールが入りました。
 

ただ、障害といっても、サーバーが瞬間的に負荷が高くなり、レスポンスタイムが30秒を超えたら発生して、確認するタイミングでは、負荷が解消してるというケースもあるため、
 

ある程度の見極めも必要になります。
 

とはいえ、こうしたサービス障害を検知する監視システムというのは、必須ですし、これをやっていない運用は、パンツを履かずにズボンを履くようなものでしょう。
 

想定と違う時に人は焦る

そして、今回の障害は、アクセス時間オーバーと来ていたので、とりあえず、サーバーの再起動をして完了すると思われたのですが、
 

5分ほど待ってもサーバーが再起動しません・・・
 

あれ?
 

こんなはずでは・・・
 

いつもは、これだけで、スッキリ解消するのに・・・
 

このサーバーはVPSサーバーなので、遠隔ログインできるバーチャルコンソールを管理パネルに備えられているので、それを使って、サーバーにアクセスしてみたところ、
 

Linuxの起動画面で、停止している状態でした。
 


 

なんという事でしょう。
 

こんな症状は見たことがない・・・
 

「An error occurred during …」
 

でも、このワードは、たまに見る・・・
 

どうやら、ファイルシステムに障害が発生して、起動ができない状態になっているとの事らしい。
 

オーマイガ!!!!!
 

手元にあるハードウェアであれば、温度チェックをしたり、異音チェックをしたり、いろいろとするのだが、このエラーメッセージのみで対応するのは、いささか酷な感じである。

とりあえずやったこと

サーバー管理会社に連絡をとり、ハードウェアの異常を聞こうと思ったのだが、休日の夜中であったため、高額なお布施契約をしていないと、そんな対応はしてくれず、
 

サポートにメールだけして、次の日ぐらいに連絡をもらうように送信しておいた。
 

次に、そのVPSサービスは、自動チャットで、サポート対応をしてくれていたので、AI相手に、障害報告をしてみる。
 

案の定、キーワードがマッチするだけで、全く関係ないマニュアルページに飛ばされるだけで、一向に解決しそうにない・・・
 

fsckコマンドで無事解決

エラー画面をよく見てみると、「RUN fsck …」と書いてあるので、
 

レスキューモードでのログインを行い、”fsck”とコマンドを打ち込むと、色々なfile systemのチェックが始まった。
 

色々なチェックの度に、チェックしますか?と聞かれるので、全て”Yes”で返答してみると、知らない間にOSがリブートして、起動画面に切り替わっていた。
 

そして、通常のログイン画面が表示されたので、監視システムで確認をしてみると、無事にサーバーが起動していたので、今回の障害騒ぎが解決したことを知りました。
 

ありがとう、「FSCKコマンド」。
 

次回からは、慌てず、忘れず、メッセージを良く読むことにするよ。

Leave a Reply

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です