久々のスクレイピングの話し

2017年11月10日  カテゴリ:サイト作成日記

クリスマス

例年のごとくリア充爆発しろネタで埋まる行事。
いつしかスーパーもクリスマス一色。
というか目の前のモスバーガーが赤緑化。

サンタさんは通販と子供は知っているし、
また楽天で注文しなくては。

結局、WiiUもスイッチも買ってないなぁ・・・

--

スクレイピング

ほぼ趣味として久々にやってみた。
サーバーの知識が付いたので、
アクセス拒否などの制限突破ができるようになった。

基本的には、全ソース取得→改行削除→正規表現置換で何でもできる。
別に処理が遅くなっても良いので、
こうした汎用的なプログラムで十分。

制限が厳しい某サイトを丸ごとパクるプログラムを作って、自己満足。
ただの私的な保存です。

ちゃんとゆっくりダウンロード。

--

あらゆる偽装を

偽装をすれば制限を突破できる。
「直リンク禁止」なんかはリファラー偽装を。
IP制限されたら、他のサーバー経由でいたちごっこ。

この程度なら余裕です。
Googleはロボットの判別が素晴らしく、自分には無理。
どうしたら突破できるのだろうか?

取得時間をランダム、1時間置き、都度リンク元を変える、
ランダムスクロール、などをしてもすぐ制限に。
IPベースで、時間と回数制限+α?

こういった技術を突破し、自分も真似したい。
攻撃できると防御もできるようになる。

--

楽して稼ぐ

と考えてのスクレイピングは稼げない。
ただのコピーではなくて、コンテンツの作成補助です。
データベースを作ったり、画像を抽出したり、
自動で資料を揃えることを目的としたい。

たとえば、メーカーの仕様一覧。
これを自動でエクセルの表にする。
新商品が出ても、すぐ更新できる。

こういった技ができると、
コンテンツの幅が広がります。

検索系サイトは全てコピーできます。

--

ここは注意

自分ができるということは、他人もできるということ。
機械的なコンテンツだとパクられて終わりです。
そこで、感情や考察を入れて「著作化」しないといけない。

ここの差が今後は大事になってくる。
みんな同じなら、どれを選ぶか?

鰓ばれるサイトを目指す。
管理人の人柄、大事です。
 
 
※次の勝負は何か?と常に考えたい。

  

パルどうSEOブログトップへ


Copyright (c) 2017 パルどうSEOブログ All Rights Reserved.