ダミー変数とは何?【初心者にも分かるように解説】

機械学習や統計学の勉強をしていると出てくる言葉でダミー変数というものがあります。

ダミー変数と聞いてどんなものか想像ができましたか?

想像できた人は、想像した内容が合っているか確認しましょう。想像できなかった人はこの記事を読めば完全に理解することができます。

では、見ていきましょう。

ダミー変数とはデータを変換する手法

ダミー変数とは数値じゃないデータを数値に変換する手法のことです。アンケートをとって、「はい」か「いいえ」というデータがあったら、どちらかを1にして、どちらかは0というように表します。

このようなデータをダミー変数に変換すると・・・

名前 アンケート結果
Aさん はい
Bさん はい
Cさん いいえ
Dさん はい
Eさん いいえ

こうなります。

名前 はい いいえ
Aさん
Bさん
Cさん
Dさん
Eさん

上記の例では、「はい」「いいえ」の2値で表現しました。ダミー変数は複数の値でも変換することができます。

例えば、以下のように天気のデータがあったとします。このデータをダミー変数に変換すると・・・

日付 天気
1日 晴れ
2日 くもり
3日 晴れ
4日
5日 くもり

こうなります。

日付 晴れ くもり
1日
2日
3日
4日
5日

複数データでも問題なくダミー変数化ができました。

ダミー変数とは、ダミー変数化したいデータ項目を作り、ひとつだけを「1」にして、残りは「0」にする行為のことです。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA