データサイエンティストハトリのブログ

PythonとインテリジェントクラウドとAIが好きな学生エンジニア。データ分析、スクレイピング、就職活動などについて書いていきます。

【webスクレイピングと著作権】どこから違法?法律的観点から注意すべき点!


f:id:hatorihatorihatorik:20180930021716j:plain

 

こんにちは、どうもハトリです!!

 

TwitterでプログラミングやIT関連のことについてつぶやいているのでよかったら是非フォローしてください →→(@tori_engineer)

 

 

この記事は法律に重点をおいて書いてあります。法律に触れないためにどうコーディングしたらいいのかなどに関してはこちらの記事で紹介していますので合わせて確認してみてください。

www.torikun.com

そもそもスクレイピングとは? 

 

ウェブスクレイピング(英: Web scraping)とは、ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。ウェブ・クローラーあるいはウェブ・スパイダーとも呼ばれる。 通常このようなソフトウェアプログラムは低レベルのHTTPを実装することで、もしくはウェブブラウザを埋め込むことによって、WWWのコンテンツを取得する。

ウェブスクレイピング - Wikipedia

 

つまり、私たちが使っているwebサイトからそこに書いてある文字を取ってきて自分達で使えるようにすることをいいます。HTMLを解析して必要なところだけを取ってくることができます。

 

スクレイピングはWebサイトなら基本的になんでもとってこれます。かなり便利ですし使い方によっては業務効率を格段にあげることができます。

qiita.com

スクレイピングの法律的規則

f:id:hatorihatorihatorik:20180930021722j:plain

スクレイピング著作権違法?

先ほどもご紹介したようにスクレイピングとは、他者が作成したネット記事などの「著作物」を勝手に取得することをいいます。

 

ここで気になってくるのが著作権の問題です。そもそも人様が作ったサイトや書いた文章を勝手に持ってきていいものなのでしょうか。

このスクレイピングによって他人の著作物を収集することは著作権の侵害に当たらないのでしょうか。

 

基本的にスクレイピングは法律的に認められている

 

著作権法47条の7によるとこのように書かれています。

 

著作物は、電子計算機による情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の統計的な解析を行うことをいう。以下この条において同じ。)を行うことを目的とする場合には、必要と認められる限度において、記録媒体への記録又は翻案(これにより創作した二次的著作物の記録を含む。)を行うことができる。ただし、情報解析を行う者の用に供するために作成されたデータベースの著作物については、この限りでない。

 

つまり、情報解析目的であるならばスクレイピングをしても法律的に問題ないということです。

 

ただし、スクレイピングをしたサイトの利用規約スクレイピングを禁止していたり、そのサイト内の内容を商業目的で、利用することを禁止していた場合には
違反になります。

特に会員登録が必要なサイト(FacebookTwitterなど)は登録時に利用規約があるのでそれに従わなければ違反になってしまうので気をつけてください。

 

スクレイピングが犯罪になるケース

f:id:hatorihatorihatorik:20180930021719j:plain

 

スクレイピングが犯罪になるケースは一定数存在します。便利だからといってむやみに使わないように注意してください。

 

どんなものが犯罪になるのか、その事例を紹介します。

著作権法の侵害の場合

 

上にも書いた通り、情報解析目的であれば著作権法の侵害にはなりません。

ただし、スクレピングしたデータをそのままインターネット上で配信することは違法行為となります。スクレイピングで取得したデータは自分で何かしらのオリジナリティのある工夫を加える必要があります。

 

動産不法侵入または偽計業務妨害罪の場合

 

これはスクレイピングをしていると起こる相手サーバーへの負荷のことを意味します。

 

スクレイピングをすると、短時間になんどもサーバーへのアクセスを行います。これにより相手のサーバーに負荷がかかるため、これが犯罪になってしまうことがあります。

 

スクレイピングを行う際はアクセスの間隔を1秒以上開けるようにするといったような対処法をとりましょう。

 

スクレイピングで有名になった事件

これに関してはLibrahack事件という有名な事件があります。

 

この事件はスクレイピングをするときにしっかりと時間を開けて行なっていたにもかかわらず、サーバーの不具合により高負荷と判断され逮捕されてしまった事件です。この事件は明らかに誤認逮捕であると言われていますが、警察、検察の技術をあまり理解していなかったこともあり、このような結果になってしまいました。

 

スクレイピングを行う際はこのようなことも頭に入れながら行なっていくべきでしょう。

不法行為責任の場合

f:id:hatorihatorihatorik:20180930021711j:plain

ウェブサイトにはGoogleなどのクローラからアクセスを制限するための措置としてrobot.txtというものがあります。

 

これはクローラーのようなロボットがWEBページのへのアクセスすることを制限するためのファイルです。サイトの重要なページにクローラーの訪問数を増やすことで、SEO改善に繋げることができるため設定しているサイトも多いです。

 

このrobot.txtに書いてある内容を破ってクローリングを行なった場合は、民法上の不法行為に該当する可能性があるので注意が必要です。

 

robot.txtの説明はこちらをご覧ください。

www.seohacks.net

スクレイピングを使ってサイト運営を行なっている事例

SmartNews

www.smartnews.com

 

最近さまざまなニュースキュレーションサイトが出てきていますが、SmartNewsもこの一つです。

スクレイピング+ニュース+便利な機能によって付加価値を生み出しています。

 

例えば、高度な機械学習技術を用いてニュースのカテゴリの分類を行うことで、その該当するニュースがどこにあるのかを探しやすくしたり、違い棚というUIを用いることでユーザーが多くの情報を吸収できるような仕組みが作られています。

 

実際私もSmartNewsでよくニュースを見ます。日経新聞のサイトに直接いくよりもこのSmartNewsを使った方が便利ですし、短い時間でたくさんのことを吸収できます。

 

スクレイピングは使い方と付加価値次第でとても便利なツールになります。法律的、技術的にどこまでできるのかを事前に確認しながら利用していくようにしましょう。

 

じゃあ具体的にどうやってスクレイピングすればいいのか

f:id:hatorihatorihatorik:20180930021714j:plain

 

じゃあ具体的にどうやってスクレイピングを行なっていけばいいのでしょうか。実際に行なっているスクレイピングのやり方をこちらの記事で紹介しています。

 

サンプルコードも合わせて紹介しておりますので参考にしてみてください。

www.torikun.com