サーバー監視ツールを作ろう - 2日目「wget」

2018年9月16日

今回は、一番肝になるhttpアクセス監視をターミナルコマンドだけで実現してみたいと思います。 httpアクセス監視は、「wget」または「curl」のどちらかを使えば非常に簡単に行えますが、個人的にはレガシーコマンドを使うことを推奨しているので「wget」で行います。

wgetの豊富な機能

wgetは、地味ながら非常に高機能を備えている素敵コマンドです。試しにhelpを見てみると、そのオプションの多さにびっくりするでしょう。

$ wget --help

GNU Wget 1.17.1, 非対話的ネットワーク転送ソフト
使い方: wget [オプション]... [URL]...

長いオプションで不可欠な引数は短いオプションでも不可欠です。

スタートアップ:
  -V,  --version                   バージョン情報を表示して終了する
  -h,  --help                      このヘルプを表示する
  -b,  --background                スタート後にバックグラウンドに移行する
  -e,  --execute=COMMAND           `.wgetrc'形式のコマンドを実行する

ログと入力ファイル:
  -o,  --output-file=FILE          ログを FILE に出力する
  -a,  --append-output=FILE        メッセージを FILE に追記する
  -d,  --debug                     デバッグ情報を表示する
  -q,  --quiet                     何も出力しない
  -v,  --verbose                   冗長な出力をする (デフォルト)
  -nv, --no-verbose                冗長ではなくする
       --report-speed=TYPE         帯域幅を TYPE で出力します。TYPE は 'bits' が指定できます。
  -i,  --input-file=FILE           FILE の中に指定された URL をダウンロードする
  -F,  --force-html                入力ファイルを HTML として扱う
  -B,  --base=URL                  HTML で入力されたファイル(-i -F)のリンクを
                                   指定した URL の相対 URL として扱う
       --config=FILE               設定ファイルを指定する
       --no-config                 設定ファイルを読みこまない
       --rejected-log=FILE         拒否された理由をログ FILE に保存する

ダウンロード:
  -t,  --tries=NUMBER              リトライ回数の上限を指定 (0 は無制限).
       --retry-connrefused         接続を拒否されてもリトライする
  -O,  --output-document=FILE      FILE に文書を書きこむ
  -nc, --no-clobber                存在しているファイルをダウンロードで上書きしない
  -c,  --continue                  部分的にダウンロードしたファイルの続きから始める
       --start-pos=OFFSET          OFFSET からダウンロードを開始する
       --progress=TYPE             進行表示ゲージの種類を TYPE に指定する
       --show-progress             どのモードでも進捗バーを表示する
  -N,  --timestamping              ローカルにあるファイルよりも新しいファイルだけ取得する
       --no-if-modified-since      タイムスタンプモードの時に、
                                     if-modified-since get リクエストを使わない
       --no-use-server-timestamps  don't set the local file's timestamp by
                                     the one on the server
  -S,  --server-response           サーバの応答を表示する
       --spider                    何もダウンロードしない
  -T,  --timeout=SECONDS           全てのタイムアウトを SECONDS 秒に設定する
       --dns-timeout=SECS          DNS 問い合わせのタイムアウトを SECS 秒に設定する
       --connect-timeout=SECS      接続タイムアウトを SECS 秒に設定する
       --read-timeout=SECS         読み込みタイムアウトを SECS 秒に設定する
  -w,  --wait=SECONDS              ダウンロード毎に SECONDS 秒待つ
       --waitretry=SECONDS         リトライ毎に 1〜SECONDS 秒待つ
       --random-wait               ダウンロード毎に 0.5*WAIT〜1.5*WAIT 秒待つ
       --no-proxy                  プロクシを使わない
  -Q,  --quota=NUMBER              ダウンロードするバイト数の上限を指定する
       --bind-address=ADDRESS      ローカルアドレスとして ADDRESS (ホスト名か IP) を使う
       --limit-rate=RATE           ダウンロード速度を RATE に制限する
       --no-dns-cache              DNS の問い合わせ結果をキャッシュしない
       --restrict-file-names=OS    OS が許しているファイル名に制限する
       --ignore-case               ファイル名/ディレクトリ名の比較で大文字小文字を無視する
  -4,  --inet4-only                IPv4 だけを使う
  -6,  --inet6-only                IPv6 だけを使う
       --prefer-family=FAMILY      指定したファミリ(IPv6, IPv4, none)で最初に接続する
       --user=USER                 ftp, http のユーザ名を指定する
       --password=PASS             ftp, http のパスワードを指定する
       --ask-password              パスワードを別途入力する
       --no-iri                    IRI サポートを使わない
       --local-encoding=ENC        指定した ENC を IRI のローカルエンコーディングにする
       --remote-encoding=ENC       指定した ENC をデフォルトのリモートエンコーディングにする
       --unlink                    上書きする前にファイルを削除する

ディレクトリ:
  -nd, --no-directories            ディレクトリを作らない
  -x,  --force-directories         ディレクトリを強制的に作る
  -nH, --no-host-directories       ホスト名のディレクトリを作らない
       --protocol-directories      プロトコル名のディレクトリを作る
  -P,  --directory-prefix=PREFIX   ファイルを PREFIX/ 以下に保存する
       --cut-dirs=NUMBER           リモートディレクトリ名の NUMBER 階層分を無視する

HTTP オプション:
       --http-user=USER            http ユーザ名として USER を使う
       --http-password=PASS        http パスワードとして PASS を使う
       --no-cache                  サーバがキャッシュしたデータを許可しない
       --default-page=NAME         デフォルトのページ名を NAME に変更します
                                   通常は `index.html' です
  -E,  --adjust-extension          HTML/CSS 文書は適切な拡張子で保存する
       --ignore-length             `Content-Length' ヘッダを無視する
       --header=STRING             送信するヘッダに STRING を追加する
       --max-redirect              ページで許可する最大転送回数
       --proxy-user=USER           プロクシユーザ名として USER を使う
       --proxy-password=PASS       プロクシパスワードとして PASS を使う
       --referer=URL               Referer を URL に設定する
       --save-headers              HTTP のヘッダをファイルに保存する
  -U,  --user-agent=AGENT          User-Agent として Wget/VERSION ではなく AGENT を使う
       --no-http-keep-alive        HTTP の keep-alive (持続的接続) 機能を使わない
       --no-cookies                クッキーを使わない
       --load-cookies=FILE         クッキーを FILE から読みこむ
       --save-cookies=FILE         クッキーを FILE に保存する
       --keep-session-cookies      セッションだけで用いるクッキーを保持する
       --post-data=STRING          POST メソッドを用いて STRING を送信する
       --post-file=FILE            POST メソッドを用いて FILE の中味を送信する
       --method=HTTPMethod         "HTTPMethod" をヘッダのメソッドとして使います
       --body-data=STRING          STRING をデータとして送る。--method を指定してください。
       --body-file=FILE            ファイルの中味を送る。--method を指定してください。
       --content-disposition       Content-Disposition ヘッダがあれば
                                   ローカルのファイル名として用いる (実験的)
       --content-on-error          サーバエラー時に受信した内容を出力する
       --auth-no-challenge         サーバからのチャレンジを待たずに、
                                   Basic認証の情報を送信します。

HTTPS (SSL/TLS) オプション:
       --secure-protocol=PR        セキュアプロトコルを選択する (auto, SSLv2, SSLv3, TLSv1, PFS)
       --https-only                安全な HTTPS のリンクだけたどる
       --no-check-certificate      サーバ証明書を検証しない
       --certificate=FILE          クライアント証明書として FILE を使う
       --certificate-type=TYPE     クライアント証明書の種類を TYPE (PEM, DER) に設定する
       --private-key=FILE          秘密鍵として FILE を使う
       --private-key-type=TYPE     秘密鍵の種類を TYPE (PEM, DER) に設定する
       --ca-certificate=FILE       CA 証明書として FILE を使う
       --ca-directory=DIR          CA のハッシュリストが保持されているディレクトリを指定する
       --crl-file=FILE             CRL ファイルを指定する
       --random-file=FILE          SSL PRNG の初期化データに使うファイルを指定する
       --egd-file=FILE             EGD ソケットとして FILE を使う

HSTS オプション:
       --no-hsts                   HSTS を使わない
       --hsts-file                 HSTS データベースのパス (デフォルトを上書き)

FTP オプション:
       --ftp-user=USER             ftp ユーザとして USER を使う
       --ftp-password=PASS         ftp パスワードとして PASS を使う
       --no-remove-listing         `.listing' ファイルを削除しない
       --no-glob                   FTP ファイル名のグロブを無効にする
       --no-passive-ftp            "passive" 転送モードを使わない
       --preserve-permissions      リモートのファイルパーミッションを保存する
       --retr-symlinks             再帰取得中に、シンボリックリンクでリンクされた先のファイルを取得する

FTPS オプション:
       --ftps-implicit                 implicit FTPS を使う (デフォルトポートは 990)
       --ftps-resume-ssl               制御接続で開始した SSL/TLS セッションを
                                         データ接続で再開する
       --ftps-clear-data-connection    制御チャネルだけ暗号化する(データは平文になる)
       --ftps-fallback-to-ftp          サーバが FTPS に対応していない場合は FTP にする
WARC オプション:
       --warc-file=FILENAME        リクエスト/レスポンスデータを .warc.gz ファイルに保存する
       --warc-header=STRING        warcinfo record に STRING を追加する
       --warc-max-size=NUMBER      WARC ファイルのサイズの最大値を NUMBER に設定する
       --warc-cdx                  CDX インデックスファイルを書く
       --warc-dedup=FILENAME       指定した CDX ファイルに載っている record は保存しない
       --no-warc-compression       WARC ファイルを GZIP で圧縮しない
       --no-warc-digests           SHA1 ダイジェストを計算しない
       --no-warc-keep-log          WARC record にログファイルを保存しない
       --warc-tempdir=DIRECTORY    WARC 書込時の一時ファイルを置くディレクトリを指定する

再帰ダウンロード:
  -r,  --recursive                 再帰ダウンロードを行う
  -l,  --level=NUMBER              再帰時の階層の最大の深さを NUMBER に設定する (0 で無制限)
       --delete-after              ダウンロード終了後、ダウンロードしたファイルを削除する
  -k,  --convert-links             HTML や CSS 中のリンクをローカルを指すように変更する
       --convert-file-only         convert the file part of the URLs only (usually known as the basename)
       --backups=N                      ファイルに書きこむ時に N ファイルのバックアップをローテーションさせる
  -K,  --backup-converted          リンク変換前のファイルを .orig として保存する
  -m,  --mirror                    -N -r -l 0 --no-remove-listing の省略形
  -p,  --page-requisites           HTML を表示するのに必要な全ての画像等も取得する
       --strict-comments           HTML 中のコメントの処理を厳密にする

再帰ダウンロード時のフィルタ:
  -A,  --accept=LIST               ダウンロードする拡張子をコンマ区切りで指定する
  -R,  --reject=LIST               ダウンロードしない拡張子をコンマ区切りで指定する
       --accept-regex=REGEX        許容する URL の正規表現を指定する
       --reject-regex=REGEX        拒否する URL の正規表現を指定する
       --regex-type=TYPE           正規表現のタイプ (posix|pcre)
  -D,  --domains=LIST              ダウンロードするドメインをコンマ区切りで指定する
       --exclude-domains=LIST      ダウンロードしないドメインをコンマ区切りで指定する
       --follow-ftp                HTML 文書中の FTP リンクも取得対象にする
       --follow-tags=LIST          取得対象にするタグ名をコンマ区切りで指定する
       --ignore-tags=LIST          取得対象にしないタグ名をコンマ区切りで指定する
  -H,  --span-hosts                再帰中に別のホストもダウンロード対象にする
  -L,  --relative                  相対リンクだけ取得対象にする
  -I,  --include-directories=LIST  取得対象にするディレクトリを指定する
       --trust-server-names             ファイル名としてリダイレクト先のURLの最後の部分を使う
  -X,  --exclude-directories=LIST  取得対象にしないディレクトリを指定する
  -np, --no-parent                 親ディレクトリを取得対象にしない

バグ報告や提案は<bug-wget@gnu.org>へ

バージョンが"1.17.1"というのがわかりますが、古いバージョンを使っている人は、これよりも機能が不足しているかもしれません。ちなみに、2018.9.12現在での最新バージョンは"1.18"のようです。 http://www.gnu.org/software/wget/manual/wget.htmlこちらのページで確認ができます。すべての機能を説明しませんが、簡単にwgetコマンドでできる事をリストアップしてみます。

1. url先の表示htmlソースコードをダウンロード。（階層ごと取得することも可能※再帰処理） 2. 任意のアドレスに対してデータをPOST送信。 3. basic認証付きサイトにログインしてアクセス。 4. DNS調査 5. ドメイン調査 6. Cookie調査 7. IPアドレスの取得

いろんな事できますね。神ツールです。

httpアクセスはレスポンス値200を確認すればいい?!

主にはURL先のデータダウンロードに使う場合が多いですが、今回は、wgetを使って、url先のレスポンスヘッダを取得してみようと思います。インターネットのレスポンスヘッダのルールとして、ステータスコードの200番は、正常通信したという状態の事です。ちなみに、ステータスコードの404番は「404 Not found」としてみることができる、ページが存在しないというエラーです。また、500番台は、エンジニアには悩ましいサーバー内部エラーで、プログラムエラーや、モジュールエラーなどの意味ですね。要するに任意のURLにアクセスして、レスポンスヘッダを取得して、ステータスコードが２００である場合に、そのURLは正常に動作しているという判断で問題なく「生死確認」ができるという事になります。具体的にwgetコマンドではどのようにするかというと、まずはステータスコードをwgetを使って取得していみましょう。試しにこのブログのドメインのステータスコードを取得してみましょう。

wget -S --spider https://blog.myntinc.com

スパイダーモードが有効です。リモートファイルが存在してるか確認します。
--2018-09-13 08:55:30--  https://blog.myntinc.com/
blog.myntinc.com (blog.myntinc.com) をDNSに問いあわせています... 157.65.28.118
blog.myntinc.com (blog.myntinc.com)|***.***.***.***|:80 に接続しています... 接続しました。
HTTP による接続要求を送信しました、応答を待っています... 
  HTTP/1.1 200 OK
  Server: nginx/1.14.0
  Date: Wed, 12 Sep 2018 23:55:29 GMT
  Content-Type: text/html; charset=UTF-8
  Connection: keep-alive
  X-Powered-By: PHP/7.1.16
  Link: <https://blog.myntinc.com/index.php?rest_route=/>; rel="https://api.w.org/"
長さ: 特定できません [text/html]
リモートファイルが存在し、さらなるリンクもあり得ますが、再帰が禁止されています -- 取得しません。

「-S」は、サーバの応答を表示するという事で、ヘッダ情報が表示されます。ちなみに、この情報は通常のこめんどレスポンス値とは違っていて、その値をそのまま取得することができません。試しに、"> res.txt"を後ろに追加してみても、表示はされているのに値がデータで取得されないことがわかります。でもコマンドを知っている人は下記のようにして取得できる事がわかると思います。 $ wget -S --spider http://blog.myntinc.com 2> res.txt 「２」というのは、返り値を表しているので、それを出力する意味になります。でもそもそも-Sオプションを使わなくても下記のようにするだけで、ステータスコードの取得は簡単にできます。

wget --spider -nv --timeout 60 http://blog.myntinc.com
> 2018-09-13 08:43:11 URL: http://blog.myntinc.com/ 200 OK

簡単に解説すると、「--spider」は、ダウンロードしないという命令「-nv」は、冗長ではなくするという説明書きですが、余計な表示を無くすという命令「--timeout 60」は、その名称通りタイムアウトの秒数をしていしています。もしサーバーがダウンしていたらこれを記載していないとサーバーが回復するまで、値が帰ってこなくなるので、処理て停止してしまう可能性がありますからね。この時点で分かりにくい人は、ネットワークとコマンドの事をもう少し勉強した方がいいでしょう。今回はこれ以上は深掘りしません。とりあえず、これでurlに対して、ステータスコード:200の取得ができるかどうかの判定ができました。次回は、これをURLリストを元に、一括で処理してみたいと思います。

サーバー監視ツールを作ろう - 2日目「wget」

wgetの豊富な機能

httpアクセスはレスポンス値200を確認すればいい?!

人気の投稿

このブログを検索

ごあいさつ

ブログアーカイブ

ラベル

サーバー監視ツールを作ろう - 2日目「wget」

wgetの豊富な機能

httpアクセスはレスポンス値200を確認すればいい?!

人気の投稿

このブログを検索

ごあいさつ

ブログ アーカイブ

ラベル

ブログアーカイブ