iタウンページをスクレイピングしていきます。
スクレイピング初心者のためにも段階を踏んで解説します。
その解説は、プログラミング初心者が設計について学べるところがあるでしょう。
なぜなら、スクレイピングはマスタ構成なども考慮しながら行う必要があるからです。
「iタウンページ上の事業者情報が欲しいんじゃ」
もちろん、このような人に向けた内容でもあります。
本記事の内容
- スクレイピングを始める前に
- iタウンページの利用規約を確認する
- iタウンページをスクレイピングするための準備
- iタウンページとスクレイピングと私
それでは、上記に沿って解説していきます。
スクレイピングを始める前に
本ブログが初めての方は、次の記事を必ず読んでください。
すべて読む必要はありません。
ただし、「【必須】Webスクレイピングに関する考え方」だけは絶対に読んでください。
上記の内容は、スクレイピング・クローリングを行う際には必須の知識です。
その内容を理解しておかないと、最悪の場合は前科持ちになってしまいます。
上記内容を理解できたら、次へ進みましょう。
iタウンページの利用規約を確認する
iタウンページの利用規約
https://itp.ne.jp/guide/web/notice/
上記ページを確認すると、次の記述があります。
明らかにスクレイピングを禁止しています。
と言っても、所詮は利用規約です。
もちろん、法律は絶対に破ってはいけません。
でも、利用規約なんて一民間企業が勝手に作ったモノに過ぎません。
だから、「スクレイピング禁止」の記述なんて無視しても問題ありません。
ただし、勘違いはしないようにしてください。
利用規約に書かれている書かれていないに関係なく、法律の遵守は絶対です。
これらの行為が発見された場合には、予告なしにiタウンページへのアクセスを停止、損害賠償請求等必要な措置(法的措置を含みます。)を取ることができるものとします。
あと、利用規約に上記のことが記載されています。
このアクセス停止に関して、iタウンページは本当にしてきます。
この件に関しては、後で述べます。
それと「損害賠償請求等必要な措置(法的措置を含みます。)」という言葉もありますね。
これは、法律違反に関してです。
節度を持ったスクレイピングをしている限り、法的措置なんて絶対に無理です。
断言できます。
なぜなら、NTTと接待をしまくっている総務省もスクレイピングをやっていますので。
ちなみに、iタウンページの運営元はNTTタウンページ株式会社です。
そして、NTTタウンページ株式会社の親会社(100%)はNTT東日本になります。
上記は、NTTタウンページ株式会社の決算公告より
https://www.ntt-tp.co.jp/assets/pdf/koukoku01.pdf
iタウンページをスクレイピングするための準備
普段使っているPCでもOKです。
もちろん、VPSを契約してLinuxマシンを使うのもアリ。
私の場合は、以下の格安VPSを複数台契約しています。
IP分散という目的もありますが、長時間PCを動かし続けるのは避けたいです。
そのため、サーバーでスクレイピングを運用するのはおススメと言えます。
そして、プログラミング言語はPythonを利用します。
他の言語でも可能ですが、スクレイピングするならPythonがベストです。
その理由は、圧倒的に充実したライブラリにあります。
スクレイピングで利用するのは、以下のライブラリとなります。
- Selenium
- BeautifulSoup4
- lxml
これらのライブラリが必要な理由とそのインストール方法は、次の記事で解説しています。
「メルカリのスクレイピング仕様(考え方)」の部分です。
上の記事の内容をもとに、準備を整えましょう。
以上が、iタウンページをスクレイピングするための準備となります。
本記事により、iタウンページをスクレイピングするための準備が整いました。
最後に、iタウンページに関する思い出を書いておきます。
iタウンページとスクレイピングと私
iタウンページのスクレイピングは、過去に経験があります。
もう、かれこれ10年以上前のことになります。
まだ、スクレイピングがこれほど市民権を得る前の話です。
それに、私もまだまだプログラマーとしては未熟でした。
そして、そのときは頑張ってPHPでスクレイピングをしていました。
今は、PHPではiタウンページのスクレイピングは無理でしょう。
その当時、iタウンページから何度もアクセス拒否のペナルティを受けました。
確か、24時間はアクセスができないというペナルティでした。
サイトではなく、その手前のファイアウォールでIPアドレスが拒否されていたのでしょう。
おそらく、今もそのような仕組みは残っているはずです。
そんな iタウンページは、その当時よりサイト価値(情報)が下がっていると思います。
アクセスも当時よりは減っているはずです。
電話の価値が下がると、タウンページの価値も下がりますからね。
実際、業績的にも下降しています。
公開されている決算公告から数字を抜き出しています。
売上 | 純利益 | |
2015年 | 433.72億 | 9.21億 |
2016年 | 413.78億 | 2.53億 |
2017年 | 379.26億 | ▲24.18億 |
2018年 | 360.3億 | ▲38.89億 |
2019年 | 357.77億 | 14.18億 |
2020年 | ? | ? |
年々、下がる一方です。
そりゃ、ビジネスモデル自体が時代に取り残されていますからね。
はっきり言えば、もうオワコンです。
2017年と2018年は、ついに赤字転落となりました。
2019年は、何らかのリストラの効果で黒字確保ということでしょう。
そして、2020年はかなり厳しい決算になるはずです。
タウンページの顧客である飲食などのサービス業が、コロナで大打撃ですからね。
サイトの価値に話を戻すと、確実にサイトの価値は落ちています。
その意味では、スクレイピングをする価値も下がっているでしょう。
しかし、まだ需要があるのも事実です。
タウンページにしか載っていない情報もありますから。