「Webスクレイピングは違法です!!」
「スクレイピングはグレーだ」
スクレイピングは、過去にこのように言われてきました。
今でも、このように思っている人はいるかもしれません。
当ブログでは、「スクレイピングは違法ではない」と何度も主張してきました。
そして、その主張に基づいて多くのサイトをスクレイピングしてきました。
ついに、この主張を裏付ける資料を見つけました。
なんと、総務省がスクレイピングをしているのです!!
本記事の内容
- 総務省がスクレイピングをしている証拠
- 総務省のスクレイピングに対する法的な留意点
- 安心してスクレイピングをやりましょう
それでは、上記に沿って解説していきましょう。
総務省がスクレイピングをしている証拠
「消費者物価指数 (CPI) へ の ウェブスクレイピングの活用について」
https://www.soumu.go.jp/main_content/000654895.pdf
上記のPDFは、令和元年11月13日に開催された第8回ビッグデータ等の利活用推進に関する産官学協議のための連携会議で発表された資料です。
この資料より、取り組みの経緯(タイムスケジュール)を抜き出しました。
2020年1月から、ウェブスクレイピングが実運用されています。
そして、スクレイピングに関しての説明を次のように資料に記載しています。
これ、総務省が公開している資料ですよ。
これを見た瞬間に、少し笑ってしまいました。
「スクレイピングを公的な機関が図で解説するなんて・・・」と。
このような感じでスクレイピングの利用を資料内で説明しています。
ウェブスクレイピング暦の長い人間にとって、このことは印象的な出来事です。
以上、総務省がスクレイピングをしている証拠の解説でした。
次では、総務省のスクレイピングに対する留意点を紹介しておきます。
総務省のスクレイピングに対する法的な留意点
総務省は、公的機関です。
そのような組織が、法を犯すことはあってはならないことでしょう。
そのため、次の点は留意したようです。
留意した結果、スクレイピングは法的に問題なしと結論付けたのでしょう。
留意点はまとめると、次の3点です。
- 著作権違反
- 法的拘束力
- 業務妨害
それぞれに関して、私の考えを説明していきます。
著作権違反
さすが国の機関ですね。
細かいことを気にし過ぎです。
そもそも、利用自体で著作権の違反になるのでしょうか?
例えば、統計や機械学習でデータとして利用する場合に。
基本的には、スクレイピングしたデータをそのまま公開しなければ問題ないと考えています。
例えば、Amazonで取得したレビューの場合です。
レビューをそのまま自分のブログなどでコンテンツとして公開するのは、アウト。
しかし、そのレビューをテキストマイニングするのは、セーフ。
個人的には、このようにアウト・セーフを判断しています。
だからこそ、Amazonのレビューを350万件も取得して利用しています。
主に、感情分析のための利用です。
法的拘束力
総務省は、素晴らしい質問を法律事務所に確認してくれています。
当ブログでは、以下のことを主張しています。
「ログインせずに利用できるサイトは、何ら法的拘束力を受けない」
つまり、利用規約に記載されていることは無視してOKということです。
もちろん、著作権など法律に抵触することはアウトに変わりありません。
無視してOKというのは、次のような規約です。
こんな規約は、Twitterが独自に定めたルールです。
そして、Twitterはログインしなくても、ツイートを見れますよね。
ログイン(会員登録)せずに見れるサイト(情報)は、利用者に制限をかけずにサービス提供していると言えます。
よって、未ログイン状態であれば、Twitter規約の法的拘束力を受けないことになります。
だからこそ、次のようにTwitterをスクレイピングしています。
そもそも、スクレイピングをしたことで利用規約に違反したところでどうなるのでしょう?
せいぜい、アカウントが停止されるだけです。
スクレイピングによる利用規約違反なんてカワイイものです。
Twitterなんて、誹謗中傷による名誉毀損で罰せられるべきアカウントが無数に存在しています。
名誉毀損罪は、刑法違反のため最悪の場合は刑務所に入りますからね。
そう考えると、Twitterは力を入れるべきところを間違っています。
スクレイピング対策にはコストをかけているくせに、誹謗中傷は放置しているのですから。
業務妨害
スクレイピングをする上では、このことを最も注意すべきです。
短時間に大量のアクセスを行うと、相手方サーバーに負荷をかけてしまいます。
と言っても、TwiiterやAmazonのサイトはそんな程度では止まりません。
それに、スクレイピング(ボット)だと感知して、すぐにアクセス禁止にしてきます。
アクセス元のIP単位でアクセス禁止を食らいます。
でも、迷惑をかけるのはいけません。
そのため、DoS攻撃のようにならないように注意すべきです。
最悪、偽計業務妨害となって刑法に違反することになります。
だからこそ、スクレイピングする際に、アクセス頻度にかなり注意します。
理想は、人間が手動でアクセスする間隔ですね。
そうすれば、相手方サーバーに迷惑をかけません。
かつ、アクセス禁止のペナルティも受けません。
スクレイピング暦の浅い頃は、よくアクセス禁止を受けたものです。
今では、各サイトからペナルティを受けることが一切ありません。
Amazonから350万件のレビューをスクレイピングした場合も同様です。
何日もかけて、ゆっくりゆっくりとデータを集めています。
安心してスクレイピングをやりましょう
スクレイピングは、総務省のお墨付きをもらいました。
総務省自身がスクレイピングを実行していますからね。
どこかのシステム会社を使ってでしょうけど。
あと、公開データ(法的拘束力を受けない)をスクレイピングすることに対する裁判所の考えも参考になります。
日本ではなくアメリカの事例ですが、勉強になる裁判結果です。
また、訴えられて、負けそうなケースもあります。
ただし、上記のケースは個人情報の窃盗です。
単なるスクレイピングの話ではありません。
法的拘束力を受けて、かつ、個人情報の窃盗のコンボです。
さらには、それでお金を稼いでいるという悪質なケースとなります。
このようなケースもありますが、基本的にスクレイピングは違法ではありません。
だって、総務省もしていますからね。
だから、安心してスクレイピングをやりましょう。
ただし、業務妨害とならないように細心の注意を払ってください。