Irisデータセットのダウンロード | Excel VBAでIris分類問題
ディープラーニングを行うにはニューラルネットワークに学習させるための”大量のデータ”が必要になります。そのため、ありがたいことにインターネット上には機械学習の初学者向けに様々なデータセットが公開されています。
よく使われるデータセットとして「ワインの品質」や「ニューヨークの交通量データ」、「タイタニックの乗客名簿データ」など様々なものがあります。
Irisデータセットもこれらと同じくよく使われるデータセットの1つです。
今回はこの「Irisデータセットとは何か」からはじまり、「Irisデータセットのダウンロード」までを説明をしていきます。
Irisデータセットとは
Irisデータセットとは150個体分のIris(アヤメ)の
『ガクの長さ(sepal length)』『ガクの幅(sepal width)』
『花弁の長さ(Petal length)』『花弁の幅(petal width)』の4つの特徴と
それに対応する『花の種類(species)』がまとめられたデータセットです。
花の種類は『Setosa』『Versicolor』『Virginica』の3種類のいずれかとなっています。
Irisデータセットを学習させることで、入力された4つの特徴をもとに花の種類を”推論”、つまりはニューラルネットワークで花の種類を分類することができるようになります。
Irisデータセットのダウンロード
Pythonの場合はコード上でIrisデータセットをダウンロードすることが出来ますが、本サイトでやっている「Excelでニューラルネットワークを再現|Iris分類問題」ではExcel VBAを使ってニューラルネットワークを学習させていくので、予め「CSV形式」のIrisデータセットをダウンロードしておく必要があります。
Iris データセット(CSVファイル)のダウンロードするには下記をクリックしてください。
特に別ページに飛ぶわけでもなく、すぐにダウンロードが開始されます。
Irisデータセットのダウンロード(iris-dataset.csv)
ダウンロードしたCSVファイルをExcelで開くと以下のような中身になっています。
中身を確認する際は計150固体分のデータがあることも合わせて確認しておきましょう。
A列から順に『ガクの長さ(sepal length)』『ガクの幅(sepal width)』『花弁の長さ(Petal length)』『花弁の幅(petal width)』『花の種類(species)』となっています。
おそらく多くの人はこのデータをある程度見れば、それぞれの花の種類の”特徴”をつかむことができると思います。(たとえば「setosa」の「petal width」は他と比べて小さめ、「virginica」の「sepal length」は他と比べて気持ち大きめのように)
ニューラルネットワークをプログラム内に取り込むことで、この”データの特徴”をコンピュータが自動的に認識することが可能になります。
まとめ
今回は今後ニューラルネットワークに学習させるためのデータである「Irisデータセット」のダウンロードを行いました。今回の内容をまとめると下記の通りです。
Irisデータは『ガクの長さ』『ガクの幅』『花弁の長さ』『花弁の幅』『花の種類』の構成
Irisデータセット(.csv)のダウンロードはココをクリック
Irisデータセットのダウンロードだけの内容だったので、内容はかなり薄かったと思います。
次回はこのIrisデータセットに対して「前処理」というものを行い、ニューラルネットワークが学習しやすいようなデータに変換していきます。
徐々に内容が濃くなっていき、難易度もかなり高くなっていくのでぜひ最後まで挑戦してみて下さい。