サンプルデモ03 ワードプレスのRSSフィードを取得してみる – オリジナルワードプレスプラグイン WP RSS Scraping Post デモサイト | RSSフィードから記事全文を取得!
放置系アンテナサイトが作れる! RSSフィードから記事全文を取得!
放置系アンテナサイトが作れる! RSSフィードから記事全文を取得!

サンプルデモ03 ワードプレスのRSSフィードを取得してみる

阿修羅ワークス阿修羅ワークス
次にワードプレスのRSSフィードの取得方法です。
世界のサイトのほぼ3つに1つはWordPressで制作されていると言われています。
CMSのシェアとしてもNo1のワードプレスを押さえておけば安心ですね。

ランファランファ
はい。すっごく興味あります!

阿修羅ワークス阿修羅ワークス
ワードプレスの場合は特別なことをしていなければ、ルールが決まっています。
基本的には「http://hoge.com/?feed=rss2」のフォーマットになっていることがほとんどです。
「hoge.com」の部分は取得したいサイトのドメインに置き換えます。

ランファランファ
ふんふん。「hoge.com」の部分だけが違うんですね。

阿修羅ワークス阿修羅ワークス
はい。私のサイトでやってみましょう。
プラグイン販売のサイトのURLはこうなっています。
https://wp-plugin.info/ですから、ここに「?feed=rss2」を追加するとこうなりますね。
https://wp-plugin.info/?feed=rss2

ランファランファ
アクセスしたら変な文字列が出ました!

阿修羅ワークス阿修羅ワークス
それが出れば成功です。このURLを先程と同じようにフィード登録します。

 

 

阿修羅ワークス阿修羅ワークス
するとこんな感じになります。

ランファランファ
あっすごい全然関係のないサイトなのに記事が取得できてますね!
でもちょっとだけ本家とデザインが違いますね。なぜなんでしょうか?

阿修羅ワークス阿修羅ワークス
デザインはCSSでスタイルリングしている場合がほとんどなのですが、本家で指定しているスタイルシートが適用されていないとデザインが崩れる場合があります。取得したサイトでも本家と同じスタイルシートを用意すれば理論的にはデザインは同じになります。

ランファランファ
なるほどー。でも画像はどうなるんですか?

阿修羅ワークス阿修羅ワークス
画像は絶対パスで指定されたものであれば表示されますが、相対パスで指定されていると、取得したサイト側に画像を見に行くので表示されません。ワードプレスの場合、ほとんどが絶対パスなのでそういった心配はあまりないかと思います。

ランファランファ
全文取得できているのは、相手先が抜粋ではなく全文を許可しているからですか?

阿修羅ワークス阿修羅ワークス
はい。相手のワードプレス設定で「RSS/Atom フィードでの各投稿の表示」が「全文」となっている場合は全文が取得できます。
これは相手の好み次第となります。

 

 

ランファランファ
抜粋になっていても、スクレイピングで全文は取得できるんですか?

阿修羅ワークス阿修羅ワークス
はい。基本的には可能です。
ただし、相手のテーマや構造によってスクレイピングの設定は1サイトずつ異なります。

投稿データを見てみる