IT Python 機械学習

【機械学習】前処理 特徴量として扱う特定カラムの抽出 Null値の置換

2021年8月1日

機械学習を始めると最初に初心者がつまずくのがデータの加工、前処理ではないでしょうか?

データの形は頭にあるがうまく加工できない、手作業でやるには非効率的すぎる等など。

ここでは私が機械学習を始めた際に、データ加工・前処理をしたやり方をご紹介していきたいと思います。

 

ここで紹介すること

① 特徴量として使いたいカラムの抽出方法

② Null値の置換

 

環境

Google Colaboratory

 

加工データ

以下に簡単な加工用データを用意しました。ファイル名は適当に userinfo.csvとしておきます。

genderは 1:男性、2:女性 とします。

favorite_food_genreは、「好きな食べ物のジャンル」です。データが入っていないところは無回答としておきます。

ファイル名:userinfo.csv

no user_id name age gender favorite_food
1 A00001 Pochi 12 1 born
2 A00002 Tama 6 2 fish
3 A00003 Yota 4 1  

 

必要ライブラリの読み込み

データ加工に必要なライブラリを読み込みます。

 

ファイル読み込み

前段で用意したcsvデータをを読み込みます。

 

Excelから保存したcsvだと文字化けを起こしてしまうので encoding='cp932' を指定します。

 

① 特徴量として扱う特定カラムを抽出

機械学習をさせる際の特徴量として取り出したいカラムだけを抽出します。

ここでは年齢(age)、性別(gender)、好きな食べ物(favorite_food)を特徴量としてそのカラムだけを抽出します。

 

① 確認方法

必要なカラムだけ抽出できたか確認します。

 

② データが入っていない(Nan値)のセルは 0 に置き換える

機械学習では空データ(Null)は読み込めないため、0に置き換えます。空データを置き換える際は fillnaを使います。

 

fillna(0)とすることで df_userinfo_maeshori 内の全からデータを 0 に置き換えます。

 

② 確認方法

必要なカラムだけ抽出できたか確認します。

 

おわりに

いかがでしたでしょうか? 機械学習では、データの前処理で総時間の7割を使うと言われています。

データの制御に時間を費やさないこともデータサイエンティストにとって大事な技術と言えます。

その他にも前処理をするやりかたを紹介していますのでほかのページも見ていただければと思います。

 

-IT, Python, 機械学習

© 2025 ロスジェネ世代の平社員