サーバー監視ツールを作ろう - 2日目「wget」

2018年9月16日

テクノロジー プログラミング 特集

今回は、一番肝になるhttpアクセス監視をターミナルコマンドだけで実現してみたいと思います。 httpアクセス監視は、「wget」または「curl」のどちらかを使えば非常に簡単に行えますが、個人的にはレガシーコマンドを使うことを推奨しているので「wget」で行います。

wgetの豊富な機能

wgetは、地味ながら非常に高機能を備えている素敵コマンドです。 試しにhelpを見てみると、そのオプションの多さにびっくりするでしょう。 $ wget --help GNU Wget 1.17.1, 非対話的ネットワーク転送ソフト 使い方: wget [オプション]... [URL]... 長いオプションで不可欠な引数は短いオプションでも不可欠です。 スタートアップ: -V, --version バージョン情報を表示して終了する -h, --help このヘルプを表示する -b, --background スタート後にバックグラウンドに移行する -e, --execute=COMMAND `.wgetrc'形式のコマンドを実行する ログと入力ファイル: -o, --output-file=FILE ログを FILE に出力する -a, --append-output=FILE メッセージを FILE に追記する -d, --debug デバッグ情報を表示する -q, --quiet 何も出力しない -v, --verbose 冗長な出力をする (デフォルト) -nv, --no-verbose 冗長ではなくする --report-speed=TYPE 帯域幅を TYPE で出力します。TYPE は 'bits' が指定できます。 -i, --input-file=FILE FILE の中に指定された URL をダウンロードする -F, --force-html 入力ファイルを HTML として扱う -B, --base=URL HTML で入力されたファイル(-i -F)のリンクを 指定した URL の相対 URL として扱う --config=FILE 設定ファイルを指定する --no-config 設定ファイルを読みこまない --rejected-log=FILE 拒否された理由をログ FILE に保存する ダウンロード: -t, --tries=NUMBER リトライ回数の上限を指定 (0 は無制限). --retry-connrefused 接続を拒否されてもリトライする -O, --output-document=FILE FILE に文書を書きこむ -nc, --no-clobber 存在しているファイルをダウンロードで上書きしない -c, --continue 部分的にダウンロードしたファイルの続きから始める --start-pos=OFFSET OFFSET からダウンロードを開始する --progress=TYPE 進行表示ゲージの種類を TYPE に指定する --show-progress どのモードでも進捗バーを表示する -N, --timestamping ローカルにあるファイルよりも新しいファイルだけ取得する --no-if-modified-since タイムスタンプモードの時に、 if-modified-since get リクエストを使わない --no-use-server-timestamps don't set the local file's timestamp by the one on the server -S, --server-response サーバの応答を表示する --spider 何もダウンロードしない -T, --timeout=SECONDS 全てのタイムアウトを SECONDS 秒に設定する --dns-timeout=SECS DNS 問い合わせのタイムアウトを SECS 秒に設定する --connect-timeout=SECS 接続タイムアウトを SECS 秒に設定する --read-timeout=SECS 読み込みタイムアウトを SECS 秒に設定する -w, --wait=SECONDS ダウンロード毎に SECONDS 秒待つ --waitretry=SECONDS リトライ毎に 1〜SECONDS 秒待つ --random-wait ダウンロード毎に 0.5*WAIT〜1.5*WAIT 秒待つ --no-proxy プロクシを使わない -Q, --quota=NUMBER ダウンロードするバイト数の上限を指定する --bind-address=ADDRESS ローカルアドレスとして ADDRESS (ホスト名か IP) を使う --limit-rate=RATE ダウンロード速度を RATE に制限する --no-dns-cache DNS の問い合わせ結果をキャッシュしない --restrict-file-names=OS OS が許しているファイル名に制限する --ignore-case ファイル名/ディレクトリ名の比較で大文字小文字を無視する -4, --inet4-only IPv4 だけを使う -6, --inet6-only IPv6 だけを使う --prefer-family=FAMILY 指定したファミリ(IPv6, IPv4, none)で最初に接続する --user=USER ftp, http のユーザ名を指定する --password=PASS ftp, http のパスワードを指定する --ask-password パスワードを別途入力する --no-iri IRI サポートを使わない --local-encoding=ENC 指定した ENC を IRI のローカルエンコーディングにする --remote-encoding=ENC 指定した ENC をデフォルトのリモートエンコーディングにする --unlink 上書きする前にファイルを削除する ディレクトリ: -nd, --no-directories ディレクトリを作らない -x, --force-directories ディレクトリを強制的に作る -nH, --no-host-directories ホスト名のディレクトリを作らない --protocol-directories プロトコル名のディレクトリを作る -P, --directory-prefix=PREFIX ファイルを PREFIX/ 以下に保存する --cut-dirs=NUMBER リモートディレクトリ名の NUMBER 階層分を無視する HTTP オプション: --http-user=USER http ユーザ名として USER を使う --http-password=PASS http パスワードとして PASS を使う --no-cache サーバがキャッシュしたデータを許可しない --default-page=NAME デフォルトのページ名を NAME に変更します 通常は `index.html' です -E, --adjust-extension HTML/CSS 文書は適切な拡張子で保存する --ignore-length `Content-Length' ヘッダを無視する --header=STRING 送信するヘッダに STRING を追加する --max-redirect ページで許可する最大転送回数 --proxy-user=USER プロクシユーザ名として USER を使う --proxy-password=PASS プロクシパスワードとして PASS を使う --referer=URL Referer を URL に設定する --save-headers HTTP のヘッダをファイルに保存する -U, --user-agent=AGENT User-Agent として Wget/VERSION ではなく AGENT を使う --no-http-keep-alive HTTP の keep-alive (持続的接続) 機能を使わない --no-cookies クッキーを使わない --load-cookies=FILE クッキーを FILE から読みこむ --save-cookies=FILE クッキーを FILE に保存する --keep-session-cookies セッションだけで用いるクッキーを保持する --post-data=STRING POST メソッドを用いて STRING を送信する --post-file=FILE POST メソッドを用いて FILE の中味を送信する --method=HTTPMethod "HTTPMethod" をヘッダのメソッドとして使います --body-data=STRING STRING をデータとして送る。--method を指定してください。 --body-file=FILE ファイルの中味を送る。--method を指定してください。 --content-disposition Content-Disposition ヘッダがあれば ローカルのファイル名として用いる (実験的) --content-on-error サーバエラー時に受信した内容を出力する --auth-no-challenge サーバからのチャレンジを待たずに、 Basic認証の情報を送信します。 HTTPS (SSL/TLS) オプション: --secure-protocol=PR セキュアプロトコルを選択する (auto, SSLv2, SSLv3, TLSv1, PFS) --https-only 安全な HTTPS のリンクだけたどる --no-check-certificate サーバ証明書を検証しない --certificate=FILE クライアント証明書として FILE を使う --certificate-type=TYPE クライアント証明書の種類を TYPE (PEM, DER) に設定する --private-key=FILE 秘密鍵として FILE を使う --private-key-type=TYPE 秘密鍵の種類を TYPE (PEM, DER) に設定する --ca-certificate=FILE CA 証明書として FILE を使う --ca-directory=DIR CA のハッシュリストが保持されているディレクトリを指定する --crl-file=FILE CRL ファイルを指定する --random-file=FILE SSL PRNG の初期化データに使うファイルを指定する --egd-file=FILE EGD ソケットとして FILE を使う HSTS オプション: --no-hsts HSTS を使わない --hsts-file HSTS データベースのパス (デフォルトを上書き) FTP オプション: --ftp-user=USER ftp ユーザとして USER を使う --ftp-password=PASS ftp パスワードとして PASS を使う --no-remove-listing `.listing' ファイルを削除しない --no-glob FTP ファイル名のグロブを無効にする --no-passive-ftp "passive" 転送モードを使わない --preserve-permissions リモートのファイルパーミッションを保存する --retr-symlinks 再帰取得中に、シンボリックリンクでリンクされた先のファイルを取得する FTPS オプション: --ftps-implicit implicit FTPS を使う (デフォルトポートは 990) --ftps-resume-ssl 制御接続で開始した SSL/TLS セッションを データ接続で再開する --ftps-clear-data-connection 制御チャネルだけ暗号化する(データは平文になる) --ftps-fallback-to-ftp サーバが FTPS に対応していない場合は FTP にする WARC オプション: --warc-file=FILENAME リクエスト/レスポンスデータを .warc.gz ファイルに保存する --warc-header=STRING warcinfo record に STRING を追加する --warc-max-size=NUMBER WARC ファイルのサイズの最大値を NUMBER に設定する --warc-cdx CDX インデックスファイルを書く --warc-dedup=FILENAME 指定した CDX ファイルに載っている record は保存しない --no-warc-compression WARC ファイルを GZIP で圧縮しない --no-warc-digests SHA1 ダイジェストを計算しない --no-warc-keep-log WARC record にログファイルを保存しない --warc-tempdir=DIRECTORY WARC 書込時の一時ファイルを置くディレクトリを指定する 再帰ダウンロード: -r, --recursive 再帰ダウンロードを行う -l, --level=NUMBER 再帰時の階層の最大の深さを NUMBER に設定する (0 で無制限) --delete-after ダウンロード終了後、ダウンロードしたファイルを削除する -k, --convert-links HTML や CSS 中のリンクをローカルを指すように変更する --convert-file-only convert the file part of the URLs only (usually known as the basename) --backups=N ファイルに書きこむ時に N ファイルのバックアップをローテーションさせる -K, --backup-converted リンク変換前のファイルを .orig として保存する -m, --mirror -N -r -l 0 --no-remove-listing の省略形 -p, --page-requisites HTML を表示するのに必要な全ての画像等も取得する --strict-comments HTML 中のコメントの処理を厳密にする 再帰ダウンロード時のフィルタ: -A, --accept=LIST ダウンロードする拡張子をコンマ区切りで指定する -R, --reject=LIST ダウンロードしない拡張子をコンマ区切りで指定する --accept-regex=REGEX 許容する URL の正規表現を指定する --reject-regex=REGEX 拒否する URL の正規表現を指定する --regex-type=TYPE 正規表現のタイプ (posix|pcre) -D, --domains=LIST ダウンロードするドメインをコンマ区切りで指定する --exclude-domains=LIST ダウンロードしないドメインをコンマ区切りで指定する --follow-ftp HTML 文書中の FTP リンクも取得対象にする --follow-tags=LIST 取得対象にするタグ名をコンマ区切りで指定する --ignore-tags=LIST 取得対象にしないタグ名をコンマ区切りで指定する -H, --span-hosts 再帰中に別のホストもダウンロード対象にする -L, --relative 相対リンクだけ取得対象にする -I, --include-directories=LIST 取得対象にするディレクトリを指定する --trust-server-names ファイル名としてリダイレクト先のURLの最後の部分を使う -X, --exclude-directories=LIST 取得対象にしないディレクトリを指定する -np, --no-parent 親ディレクトリを取得対象にしない バグ報告や提案は<bug-wget@gnu.org>へ バージョンが"1.17.1"というのがわかりますが、古いバージョンを使っている人は、これよりも機能が不足しているかもしれません。 ちなみに、2018.9.12現在での最新バージョンは"1.18"のようです。 http://www.gnu.org/software/wget/manual/wget.htmlこちらのページで確認ができます。 すべての機能を説明しませんが、簡単にwgetコマンドでできる事をリストアップしてみます。
1. url先の表示htmlソースコードをダウンロード。(階層ごと取得することも可能※再帰処理) 2. 任意のアドレスに対してデータをPOST送信。 3. basic認証付きサイトにログインしてアクセス。 4. DNS調査 5. ドメイン調査 6. Cookie調査 7. IPアドレスの取得
いろんな事できますね。神ツールです。

httpアクセスはレスポンス値200を確認すればいい?!

主にはURL先のデータダウンロードに使う場合が多いですが、今回は、wgetを使って、url先のレスポンスヘッダを取得してみようと思います。 インターネットのレスポンスヘッダのルールとして、ステータスコードの200番は、正常通信したという状態の事です。 ちなみに、ステータスコードの404番は「404 Not found」としてみることができる、ページが存在しないというエラーです。 また、500番台は、エンジニアには悩ましいサーバー内部エラーで、プログラムエラーや、モジュールエラーなどの意味ですね。 要するに任意のURLにアクセスして、レスポンスヘッダを取得して、ステータスコードが200である場合に、そのURLは正常に動作しているという判断で問題なく「生死確認」ができるという事になります。 具体的にwgetコマンドではどのようにするかというと、まずはステータスコードをwgetを使って取得していみましょう。 試しにこのブログのドメインのステータスコードを取得してみましょう。 wget -S --spider https://blog.myntinc.com スパイダーモードが有効です。リモートファイルが存在してるか確認します。 --2018-09-13 08:55:30-- https://blog.myntinc.com/ blog.myntinc.com (blog.myntinc.com) をDNSに問いあわせています... 157.65.28.118 blog.myntinc.com (blog.myntinc.com)|***.***.***.***|:80 に接続しています... 接続しました。 HTTP による接続要求を送信しました、応答を待っています... HTTP/1.1 200 OK Server: nginx/1.14.0 Date: Wed, 12 Sep 2018 23:55:29 GMT Content-Type: text/html; charset=UTF-8 Connection: keep-alive X-Powered-By: PHP/7.1.16 Link: <https://blog.myntinc.com/index.php?rest_route=/>; rel="https://api.w.org/" 長さ: 特定できません [text/html] リモートファイルが存在し、さらなるリンクもあり得ますが、再帰が禁止されています -- 取得しません。 「-S」は、サーバの応答を表示するという事で、ヘッダ情報が表示されます。 ちなみに、この情報は通常のこめんどレスポンス値とは違っていて、その値をそのまま取得することができません。 試しに、"> res.txt"を後ろに追加してみても、表示はされているのに値がデータで取得されないことがわかります。 でもコマンドを知っている人は下記のようにして取得できる事がわかると思います。 $ wget -S --spider http://blog.myntinc.com 2> res.txt 「2」というのは、返り値を表しているので、それを出力する意味になります。 でもそもそも-Sオプションを使わなくても下記のようにするだけで、ステータスコードの取得は簡単にできます。 wget --spider -nv --timeout 60 http://blog.myntinc.com > 2018-09-13 08:43:11 URL: http://blog.myntinc.com/ 200 OK 簡単に解説すると、 「--spider」は、ダウンロードしないという命令 「-nv」は、冗長ではなくするという説明書きですが、余計な表示を無くすという命令 「--timeout 60」は、その名称通りタイムアウトの秒数をしていしています。もしサーバーがダウンしていたらこれを記載していないとサーバーが回復するまで、値が帰ってこなくなるので、処理て停止してしまう可能性がありますからね。 この時点で分かりにくい人は、ネットワークとコマンドの事をもう少し勉強した方がいいでしょう。 今回はこれ以上は深掘りしません。 とりあえず、これでurlに対して、ステータスコード:200の取得ができるかどうかの判定ができました。 次回は、これをURLリストを元に、一括で処理してみたいと思います。

このブログを検索

ごあいさつ

このWebサイトは、独自思考で我が道を行くユゲタの少し尖った思考のTechブログです。 毎日興味がどんどん切り替わるので、テーマはマルチになっています。 もしかしたらアイデアに困っている人の助けになるかもしれません。