本記事では、EDA(Explanatory Data Analysis)を簡単に行うライブラリ「Sweetviz」を使った雛形コードを載せました。
例えば、csvデータから機械学習で使うために訓練データとテストデータを分けた後、その出来栄えを可視化します(下図例)。この例では、訓練データ(train)とテストデータ(test)の各説明変数が均等に割り振れてる様子が視覚的にわかります。

■インストールはpipで次のようにします。
pip install sweetviz
■本プログラム
可視化のためのコードはライブラリのインポートを除いて、わずか2行です。
import pandas as pd
from sklearn.model_selection import train_test_split
import sweetviz as sv
df = pd.read_csv("boston_XYdata.csv")
df
target_Y = 'PRICE'
df_X = df.drop(target_Y, axis=1)
df_X
df_y = df[target_Y]
df_y
X_train, X_test, y_train, y_test = train_test_split(df_X, df_y, test_size = 0.3, random_state = 1)
df_train = pd.concat([X_train, y_train], axis=1)
df_test = pd.concat([X_test, y_test], axis=1)
print('df_train', df_train)
print('df_test', df_test)
my_report = sv.compare([df_train, 'train'], [df_test, 'test'], 'PRICE')
my_report.show_html("Report.html")
以上
<広告>
リンク