本記事では、欠損値(NaNや空欄など)をグラフで可視化する「missingno」の雛形コードを載せました。はじめに、インストール方法は次の2通りです。
■pipの場合
■Anacondaの場合
本記事で使用した例題は、機械学習で有名なタイタニックのデータセットです。
下図がそのデータで、891行×12列あります。
pandas標準メソッドで、数値的に欠損を確認することができます。
下図はその結果です。欠損値がAgeで177個、Cabinで687個あるとわかります。
また、非欠損数と列の型を調べることもできます。
下図はその結果です。各列の非欠損データ数と型がわかります。
数値型の列に対しては、基本統計量を算出できます。
下図はその結果です。数、平均値、標準偏差、最小値、中央値、最大値などを出力します。
以降については、missingnoを用いてグラフ化する方法です。
■棒グラフ
■マトリックスプロット
■ヒートマップ
■デンドログラム
以上
<広告>
リンク