機械学習や統計学の勉強をしていると出てくる言葉でダミー変数というものがあります。
ダミー変数と聞いてどんなものか想像ができましたか?
想像できた人は、想像した内容が合っているか確認しましょう。想像できなかった人はこの記事を読めば完全に理解することができます。
では、見ていきましょう。
ダミー変数とはデータを変換する手法
ダミー変数とは数値じゃないデータを数値に変換する手法のことです。アンケートをとって、「はい」か「いいえ」というデータがあったら、どちらかを1にして、どちらかは0というように表します。
このようなデータをダミー変数に変換すると・・・
名前 | アンケート結果 |
---|---|
Aさん | はい |
Bさん | はい |
Cさん | いいえ |
Dさん | はい |
Eさん | いいえ |
こうなります。
名前 | はい | いいえ |
---|---|---|
Aさん | 1 | 0 |
Bさん | 1 | 0 |
Cさん | 0 | 1 |
Dさん | 1 | 0 |
Eさん | 0 | 1 |
上記の例では、「はい」「いいえ」の2値で表現しました。ダミー変数は複数の値でも変換することができます。
例えば、以下のように天気のデータがあったとします。このデータをダミー変数に変換すると・・・
日付 | 天気 |
---|---|
1日 | 晴れ |
2日 | くもり |
3日 | 晴れ |
4日 | 雨 |
5日 | くもり |
こうなります。
日付 | 晴れ | くもり | 雨 |
---|---|---|---|
1日 | 1 | 0 | 0 |
2日 | 0 | 1 | 0 |
3日 | 1 | 0 | 0 |
4日 | 0 | 0 | 1 |
5日 | 0 | 1 | 0 |
複数データでも問題なくダミー変数化ができました。
ダミー変数とは、ダミー変数化したいデータ項目を作り、ひとつだけを「1」にして、残りは「0」にする行為のことです。