WP RSS Scrapeing Postの全文取得設定例 – オリジナルワードプレスプラグイン WP RSS Scraping Post デモサイト | RSSフィードから記事全文を取得!
放置系アンテナサイトが作れる! RSSフィードから記事全文を取得!
放置系アンテナサイトが作れる! RSSフィードから記事全文を取得!

WP RSS Scrapeing Postの全文取得設定例

質問が多かったWP Rss Scrapeing PostでRSSを全文取得する設定例を説明します。

最近のRSSフィードは抜粋文のみということがほとんどです。
全文を取得するにはスクレイピングという処理が必要となります。スクレイピングはRSSとは異なる技術です。

例えば、「Yahoo!ニュース・トピックス – エンタメ」のRSSフィードを取得したいとします。
Yahoo!ニュースのRSSでは抜粋文すらなく記事タイトルのみとなっています。
https://news.yahoo.co.jp/pickup/entertainment/rss.xml

このフィード内にある記事を開くとこんな形になっています。

 

Yahoo!ニュース系の特徴は「続きを読む」というリンクがあることです。
記事の要約内容が表示され、もっと詳細を読むには「続きを読む」というリンクをクリックして別ページへ移動する必要があります。
つまり、ページ閲覧が二段階になっているのが特徴です。

詳細が載っているページを開くとこんな感じです。

 

 

当然、サイトによっては「続きを読む」がない場合もあります。
ここまでは理解できたでしょうか?

スクレイピングをするためには、まず「続きを読む」のリンクされたURLを取得します。
次にそのページを開いて、記事本文のみを抽出する必要があります。

その方法について説明します。
ウェブページはHTMLで記述されていますが、その構造はそのサイトごとに異なります。

よって、「続きを読む」のリンクURLの取得も記事本文のみを抽出方法も、そのサイトごとに設定する必要があります。
従来のRSS系ツールでは、本文取得にスクレイピングという処理が発生するため本文の取得が難しいのです。

サイトを構造を調べるにはブラウザのChromeを利用します。

まずは「続きを読む」のリンクURLの取得方法です。
Chromeでページを開いたら、「続きを読む」の上で右ボタンをクリックします。
クリックすると右クリックメニューが表示されるので、 [ 検証 ] というメニューをクリックします。

 

 

クリックするとChromeのデベロッパーツール画面が開きます。この画面はカスタマイズできるので表示され方が人それぞれ違うかもしれませんが基本は一緒です。

Chromeのデベロッパーツールの使い方についてはネット検索するとかなり情報があるので参考にして下さい。

▼Chromeブラウザの検証機能でCSSスタイルの確認や変更をテストする方法

デベロッパーツールが開いたら選択した要素のクラス属性を確認します。
クラス属性というのは「class=”クラス名”」と書かれた箇所です。

 

 

Yahoo!ニュース・トピックス – エンタメの場合は「newsLink」という文字列がクラス属性となります。
これをメモしておきます。

次に詳細ページの記事本文の取得方法です。
「続きを読む」をクリックして詳細ページを表示します。

ページ内の自分が欲しい領域にマウスをあてて右ボタンをクリックします。
さきほどと同じように右クリックメニューが表示されるので、 [ 検証 ] というメニューをクリックします。

 

 

デベロッパーツールが開いたらクラス属性を確認します。
マウスを動かすとどの領域を選択しているかが青く表示されます。

 

 

Yahoo!ニュース・トピックス – エンタメの場合は「ynDetailText」という文字列がクラス属性となります。
これをメモしておきます。

なお、要素の箇所を特定する方法はクラス属性の他にID属性も使えます。
詳細は省きますがクラス名は「.(ドット)」をつけて「.clss-name」のように指定します。
ID属性は「#(シャープ)」をつけて「#id-name」のように指定します。

最後にダッシュボードのログインして、[ WP Rss Scrapeing Post ] → [ フィード登録 ] を開きます。
登録したフィードの [ 上級設定 ] アコーディオンメニューを開き以下のように入力します。

 

 

入力したら [ 登録する ] ボタンをクリックして保存します。

最後に時間がきたら全文が取得できているかを確認します。