1. TOP
  2. WordPressプラグイン
  3. WordPressでWEBスクレイピングができる「WP Content Crawler」の使い方

WordPressでWEBスクレイピングができる「WP Content Crawler」の使い方

「WP Content Crawler」を使ってWEBスクレイピング

WordPressのプラグインである「WP Content Crawler」を使用すると簡単にWEBスクレイピングができます。

2chアンテナサイトや動画アンテナサイトなどが簡単に作成可能です。また、記事をコレクションしたり、アフィリエイトの商品を自動取得したりと、アイデア次第でWEB制作の幅が広がります。

今回は実際に「WP Content Crawler」の使用方法を解説します。

WP Content Crawler

使用方法

「WP Content Crawler」をインストールして、プラグインを有効化させます。

サイドバーを表示

「WP Content Crawler」がサイドバーに表示されます。

Add New

サイドバーの「Add New」をクリックして、スクレイピングをする新規サイトを追加設定します。

新規サイトのURLの追加

「Add New Site」にサイトの名前を記述します。

Main

Main Settings

「Settings」の項目にある「Main」を選択して、メインページのURLとアクティブ状態を設定します。

サイトのURLの追加

「Site URL」でスクレイピングしたいサイトのURLを記述します。

今回は練習用に「http://www.boredpanda.com/」を使用させて頂きました。

「Active for scheduling?」にチェックを入れると、記事取得の自動化が設定されます。

Category

カテゴリーの設定

カテゴリ項目の設定

カテゴリ項目の設定

「Settings」の項目にある「Category」を選択して、スクレイピングするサイトのカテゴリーをクロールする際の設定をします。

スクレイピングしたいサイトのURLを入力

カテゴリーの項目があるサイトのURLを記述します。

カテゴリーのソースコードの記入

カテゴリー部分のソースコードを記述します。

カテゴリ部分のソースコードを記述すると一覧表示がされる。

+ボタンをクリックするとカテゴリーが一覧表示されます。

不要なカテゴリーの削除

カテゴリが一覧表示されています。

カテゴリではないので除去

カテゴリではないので削除

不要なカテゴリを削除

カテゴリーではない部分も追加されている場合があるので、その時は項目から除去してください。

カテゴリーのURLの記述

カテゴリーのURLを記述します。カテゴリーを設定するだけのサンプルURLですので、どのカテゴリのURLを選んで記述しても構いません。

カテゴリーのタイトル部分を記述

カテゴリーのタイトル部分にあるソースコードを記述します。

カテゴリーのタイトルの一覧表示

虫眼鏡ボタンをクリックするとカテゴリーのタイトルが一覧で表示されます。

不要な項目の除去

スクレイピングで取り込む際に不要なコードを自動で除去します。記事に「script」を取り込むと、エラーに繋がるため除去する設定を記述します。

アイキャッチ画像を保存

スクレイピングする記事にあるカテゴリーのアイキャッチ画像を保存するための設定をします。「Save featured images?」にチェックを入れます。

アイキャッチ画像がある部分のソースコードを記述

通常のサイトではカテゴリーの一覧表示ではアイキャッチ画像が設定されています。このアイキャッチ画像部分のソースコードを記述します。

アイキャッチ画像のソースコードが一覧表示

虫眼鏡ボタンをクリックするとカテゴリーにあるアイキャッチ画像のソースコードが一覧で表示されます。

次のページへのリンクの設定

次のページへのリンク部分の設定をします。次のページ部分に該当するソースコードを記述します。

一旦保存する。

ここまでの設定を一旦保存します。

Tester

サイドバーの「Tester」をクリックして、カテゴリー部分がスクレイピングできるかテストしてみます。

カテゴリーのテスト

「Site」の項目でテストするサイトを選択します。

「Test Type」の項目で「Category Page」を選択して、カテゴリー部分のテストをします。

「Test URL」の項目で実際にテストしたいカテゴリーのURLを記述します。

成功するとカテゴリが一覧表示される。

設定が正しい場合はスクレイピングするカテゴリーが一覧表示されます。

Post

スクレイピングする記事の設定

スクレイピング記事の設定項目

スクレイピング記事の詳細設定

記事の画像などの取り込みの設定

スクレイピング記事の詳細項目の設定

スクレイピング記事の細かい設定

WEBスクレイピングの記事設定

「Settings」の項目にある「Post」を選択して、スクレイピングするサイトの記事部分をクロールする際の設定をします。

記事のサンプルUR Lを記述

記事のURLを記述します。記事を設定するだけのサンプルURLですので、どの記事のURLを選んで記述しても構いません。

記事部分のソースコードを記述

記事部分のタイトルにあたるソースコードを記述します。

取得した記事が表示される。

虫眼鏡ボタンをクリックすると記事のタイトル部分のソースコードが表示されます。

記事のコンテンツ部分のソースコード

記事部分のコンテンツにあたるソースコードを記述します。

コンテンツのソースコードが一覧表示

虫眼鏡ボタンをクリックすると記事のコンテンツ部分のソースコードが表示されます。

keywordやdescriptionの設定

項目にチェックを入れると記事のkeywordやdescription が取得されるようになります。

画像の保存設定

「Save images as media?」の項目にチェックを入れると記事の画像が保存されます。

画像取得部分のソースタグ

画像のHTMLタグを記述します。

記事の画像はアイキャッチ画像に設定。

「Save featured image, if it is not found in category page?」の項目にチェックを入れると、アイキャッチ画像がない場合に記事の画像をアイキャッチ画像に設定します。

アイキャッチ画像のソースコードを記述

記事部分のアイキャッチ画像にあたるソースコードを記述します。

記事のアイキャッチ画像のソースコードを一覧表示

虫眼鏡ボタンをクリックすると記事のアイキャッチ画像にあたる部分のソースコードが表示されます。

記事の不要部分を削除

スクレイピングで記事部分を取り込む際に不要なコードを自動で除去します。

Template

Templateの設定

「Settings」の項目にある「Template」を選択して、自分のサイトで公開する際の記事設定をします。

Templateに記事を設定。

「Main Post Template」の項目部分では自分のサイトの記事で表示したいコンテンツを選択できます。

例えば、[wcc-main-content]を選択してエディターに記述すれば、取り込むサイトの記事部分が自分のサイト記事に表示されます。

一旦記事を保存

ここまでの設定を一旦保存します。

Tester

サイドバーの「Tester」をクリックして、記事部分がスクレイピングできるかテストしてみます。

記事が取得できるかテスト

「Site」の項目でテストするサイトを選択します。

「Test Type」の項目で「Post Page」を選択して、記事部分のテストをします。

「Test URL」の項目で実際にテストしたい記事のURLを記述します。

テスト用にスクレイピングした記事

設定が正しい場合はスクレイピングする記事が表示されます。

Tools

Toolsの設定項目

実際に記事をスクレイピングする設定

サイドバーの「Tool」をクリックして、実際にスクレイピングして記事を取得してみましょう。

取得記事のサイトとカテゴリーを設定。

「Site」の項目でスクレイピング設定したサイトを選択します

「Category」の項目でスクレイピングする記事を自分のサイトのどのカテゴリに設定するか選択します。

記事の個別URLを記述

実際に取得したい記事のURLを記述します。

記事の取得ボタン

「Crawl and Save」をクリックして、記事をスクレイピングします。

実際にスクレイピングされた記事

自分のサイトを確認すると記事が一つ取得されてることがわかります。

General Settings

General Settings項目設定

サイドバーの「General Settings」をクリックして、自動でスクレイピングする自動設定や時間間隔を設定します。

スクレイピングの時間間隔設定

「Scheduling is active?」の項目にチェックを入れると以下の動作が作動します。

「Post URL Collection Interval」の項目では、投稿のURLの収集の間隔を設定します。

「Post Crawl Interval」の項目では、収集されたURLにアクセスし、記事を保存する間隔を設定します。

時間間隔の項目を保存

設定項目を保存します。

スクレイピングのアクティブ化

All Sites

スクレイピングのアクティブ化

サイドバーの「All Sites」をクリックして、自動設定をアクティブ化させます。

これで全ての設定は終了しました。あとは自動で記事が取得されて増え続けます。

まとめ

ウェブサイトのスクレイピングプラグインのまとめ

今回は、「WP Content Crawler」の使い方を紹介しました。どうしても英語のプラグインのため、初めは戸惑うこともありますが、一度設定を覚えれば後は使うのも簡単です。

このプラグインはとても機能が優れていて、細かい設定までいとも簡単にできます。

なお、実際にスクレイピングする際は、記事の著作などには十分注意してください。

個人で記事をコレクションなどをするような楽しみ方が一番だと思います。他にも、サイト制作のアイデアとして幅広く活用してみると良いと思います。

WP Content Crawler