'21/09/09更新
本記事では、テキストファイルを柔軟に読み込むために、read_csv()の主要引数オプションの雛形コードを載せました。
データのテキストファイルの列間はカンマ、もしくはタブやスペースなど様々な方法で区切られます。また、データの開始行が1行目とは限らず2, 3行目等の場合のデータに出くわすこともあり得るかと思います。そんなあらゆるデータテキストファイルでもpandasデータフレーム形式で読み込みます。
■本プログラム
この雛形コード中にある「auto-mpg.data」は、UCI Machine Learning RepositoryにあるAuto MPGと呼ぶデータセットで下記リンク先から無料で入手できます。これは、回帰分析用のデータで1970年代後半から1980年台初めの自動車の燃費を目的関数として、気筒数、排気量、馬力、重量などを説明変数としています。
下図は、そのデータ(テキストファイル)をWindows環境下のサクラエディタで表示したものです。列間はスペースで区切られ、最終列はタブで区切られていることがわかります。更に列名はありません。このようなヘンテコな書式のデータであってもpythonのライブラリpandasで楽々読み込むことが出来ます。
本コードを実行すると下図のようにpandasのDataFrame形式で読み込みます。
(参考)本ブログのpandasに関するリンクは下記です。pandasで読み込みさえすれば、あとは自由自在に操作するだけです。
以上
<広告>
リンク