IT

データサイエンスのプロセスとデータの収集法について

データサイエンスのやり方

データサイエンスを行う際に、闇雲にデータを集めても意味がありません。

データサイエンスには必ず決まった手続きがあり、そのプロセスを踏んで研究を行います。

具体的な手順は以下のようになっています。

 

①仮説設定

データを収集する前には、仮説を立てる必要があります。どんなデータを集め、その結果何が改善できるのかについて予測を立てます。

 

②データ収集

仮説に基づいて、データを収集します。データは適当に集めても意味はなく、必ず仮説を検証できるような形で収集しなければなりません。

 

③データの分析

集めたデータを分析し、結論を導きます。仮説が証明されているかの検証も行います。

 

④フィードバック

一連のプロセスを通しての反省を行い、次の検証を修正します。

 

 

データサイエンスは以上の流れを繰り返し行います。

難しそうに書いてありますが、やっていることは小学生の自由研究と一緒ですね。単に扱うデータがややこしいだけです。

 

 

データ収集

データをどのように収集するかは、データサイエンスにおいて大きな課題となります。

一般的には3つの方法でデータを収集します。

 

①オープンデータ

オープンデータは各団体や機関が提供しているデータのことです。主に以下のようなものがあります。

 

・政府機関による統計データ

・研究者によるデータ

・共同努力で作成されたデータベース

・特定の団体によるデータ

・データサイエンスブログによるデータ

・映画データベース

 

②Web API

Web API(外部が利用できるソフトウェアや保有データ)を利用することで、データを収集することができます。スクレイピングで取得可能なデータがあったとしても、APIが利用できる場合には、後者が優先されます。

APIを提供している企業にはGoogleや楽天、Facebookなどがあります。国会図書館など公的な団体もWeb APIを公開しています。

 

③スクレイピング

python等のプログラミング言語を利用してスクレイピング(=情報収集)を行い、データを収集することもできます。ただし、スクレイピングが禁止されている場合には利用できない手法です。

 

まとめ

データサイエンスと聞くと難しそうに感じますが、意外とプロセスややり方は簡単なんですね。

小規模なものであれば、個人でも取り組めそうだし面白そうです。

ABOUT ME
てりたま
いつの間にかライターで生きるようになっていた人。真面目半分、不真面目半分で記事を書いてます。