[Nodejs] クローリングシステム構築 #2.クローリング基本ソースコード

17520285045_514d2d523d_b
LINEで送る
Share on GREE
Share on LinkedIn

前回の環境構築で「Nodejs + Phantomjs + Casperjs + Spookiejs」ができたので、色々なサイトのデータを取得してみたいと思います。
Spookiejsまでのインストールは#1「Spookyjsの環境設定」を参照してください。

事前準備

Nodejsのライブラリを事前にインストールしておきましょう。

ソースコード@Amazonのタイムセールのリスト取得

実行

実行後は、「data」「フォルダとその中に「amazon.js」ファイルが作成されます。

解説

データファイル「amazon.json」

毎回最新のデータが取得されますが、重複回避処理などは今回は入れていないので、コードを使う場合は、IDなどを入れて対応してください。

日本語フォントが表示されない

nodejsを実行するOSに日本語環境が無い場合は、正常に日本語対応ができません。
いかの対応をしてください。

サーバーサイドで画面キャプチャ その2 #PhantomJs

クローリングするサイトのDOM構造の理解

クローリングする時に、どのエレメント情報を取得するかを見極める事が非常に重要です。
今回は下記の構造をプログラムでクロールしています。

上記のエレメントのどの属性を取得しているかは、JSコードを読み取ってください。

userAgent

nodejsでのクローリングをする際に、サイト側はユーザーエージェントがない状態になるらしく、端末判定などを行なっている場合は、意図しないソースコードが出力される場合があります。
それを回避する為に、ユーザーエージェントを設定しておきましょう。

リンク

クローリングシステム構築

1. Spookyjsの環境設定
2. クローリング基本ソースコード
3. WEBシステムとの連動環境構築

Leave a Reply

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です


*