データサイエンスのやり方
データサイエンスを行う際に、闇雲にデータを集めても意味がありません。
データサイエンスには必ず決まった手続きがあり、そのプロセスを踏んで研究を行います。
具体的な手順は以下のようになっています。
①仮説設定
データを収集する前には、仮説を立てる必要があります。どんなデータを集め、その結果何が改善できるのかについて予測を立てます。
②データ収集
仮説に基づいて、データを収集します。データは適当に集めても意味はなく、必ず仮説を検証できるような形で収集しなければなりません。
③データの分析
集めたデータを分析し、結論を導きます。仮説が証明されているかの検証も行います。
④フィードバック
一連のプロセスを通しての反省を行い、次の検証を修正します。
データサイエンスは以上の流れを繰り返し行います。
難しそうに書いてありますが、やっていることは小学生の自由研究と一緒ですね。単に扱うデータがややこしいだけです。
データ収集
データをどのように収集するかは、データサイエンスにおいて大きな課題となります。
一般的には3つの方法でデータを収集します。
①オープンデータ
オープンデータは各団体や機関が提供しているデータのことです。主に以下のようなものがあります。
・政府機関による統計データ
・研究者によるデータ
・共同努力で作成されたデータベース
・特定の団体によるデータ
・データサイエンスブログによるデータ
・映画データベース
②Web API
Web API(外部が利用できるソフトウェアや保有データ)を利用することで、データを収集することができます。スクレイピングで取得可能なデータがあったとしても、APIが利用できる場合には、後者が優先されます。
APIを提供している企業にはGoogleや楽天、Facebookなどがあります。国会図書館など公的な団体もWeb APIを公開しています。
③スクレイピング
python等のプログラミング言語を利用してスクレイピング(=情報収集)を行い、データを収集することもできます。ただし、スクレイピングが禁止されている場合には利用できない手法です。
まとめ
データサイエンスと聞くと難しそうに感じますが、意外とプロセスややり方は簡単なんですね。
小規模なものであれば、個人でも取り組めそうだし面白そうです。