[Tool] クローリングとスクレイピングでツール作成 #1「Webサイトのリンク一覧を取得」

Pocket
LINEで送る
GREE にシェア
LinkedIn にシェア

WEBページをクローリングして必要な情報を取得する事は非常に効率的な作業です。
決まったニュースサイトを毎回Googleで検索している人は、パケットも時間もロスしてますね。

ニュースであれば、スマホアプリやRSSリーダーで取得して片っ端から読んでいる人は、かなりの効率家だと思われます。

今回は、自分でニュースアプリを作ったり、何かの情報を集める時に必須である「クローリング」と「スクレイピング」を利用したツール作成を行っていきたいと思います。

クローリングって何?

Googleの検索で有名になったワードで、WEBページを事前にサーチして情報を収集する事です。
検索サイトというのは、その場で全世界のサイトを探しに言っているのではなく、事前に情報を取得しておくことで検索した時のスピードを早く出来るようにしているんですね。
こんな事は、当たり前でしたね。

スクレイピングって何?

クローリングに対してスクレイピングは、WEBページの中の情報をピンポイントで取得する作業の事なんですね。
ニュースページをRSSではない状態で取得する場合に、ニュース記事とタイトル、画像などを取得する必要があります。
WEBページには、広告や他のサイトのリンクやサイトのメニューなどの色々なリンクが張り巡らされています。
だけど、必要な内容は、同じサイトであれば、だいたい決まったclass名やID名が付いていたり、DOM構造が一定になっている事がほとんどなので、事前にDOM構造の特定の箇所を指定しておく事で、比較的簡易に情報ゲットすることができます。

ただし注意としては、WEBページの情報の著作権はそのサイト主にあるので、取得した情報を二次利用的に公開する場合は、著作物の確認を行うことを忘れないようにしましょう。

WEBサイト内のリンク一覧の取得

今回は第1回目という事もあり、スクレイピングというよりは、WEBサイトを一括処理する方法として、WEBページ内のリンクを辿っていくスクリプトを書いてみました。
リンク一覧から、ページ内構造の把握ができたり、サイトマップを作れたりできるので活用方法は無限大かもしれませんね。

仕様検討

クローリングを行うツールは大体のサーバー言語で存在すると思いますが、最近AJAX処理でのページ動的表示などが増えてきていることから、PHPなどを使った静的サイト対象のみだと、かなり寒い結果になりそうなので、以下の構成で行うようにしました。

Nodejs + SpookyJS(CasperJS) + Shell

Nodejsは、サーバーサイドで行う必要があったので、casperjsを汎用性の高いnodejsで利用できるspookyJSを利用したかったので選択
shellは、nodejsの起動コントロールや、spookyjsが基本的に1回の起動セッションで1URLしか対応できない事をカバーするために、総合管理ツールとして利用

プログラム

getLinks.js

getLinks.sh

実行

ターミナルで以下のコマンドを実行
※qiitaのトップページを初回アクセスにした例

改造ポイント

「getLinks.sh」内の「maxList」の値をデフォルトで100にしてます。
URLアクセスを100回までに制限してますが、この値を変更することで、上限値の変更ができます。
ただし、一気に大量アクセスすると、IPアドレスでロックされる事もあるので、適正値を見極めて使ってください。
※spookyjsはあまり速度が出ないのでそんなに心配がいらないかもしれないですけどね。

Leave a Reply

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です