抽出

Python csvからsqlite3のDBを作成する。またそのDBを読み込んでデータ抽出したり、csvファイルへ出力する

csvファイルから、sqlite3のデータベース(DB)ファイルを作成するPythonの雛形コード。また、そのDBを読み出して、指定した条件のデータを抽出したり、それをcsvファイルへ出力する雛形コードも載せました。 ちなみに、csvからsqlite3のDBを作成するには、…

Python pandasで特定の要素の値を抽出する「at, iat」

本記事では、下図のようなpandasデータフレーム形式の表データに対して、行名、列名、もしくは行番号、列番号を指定して、任意の要素の値を抽出する雛形コードを載せました。 まず、csvのような表データは、次のようにしてpandasデータフレームで読み込みま…

Python WindowsPCにて、ログオン/ログオフ日時を取得してcsvファイルへ出力する

本記事では、下図のようにログオン、ログオフした日時を取得してcsvファイルに保存するPythonの雛形コードを載せました。また、右端の列「operating_time」には、ログオン時刻とログオフ時刻の差分を算出する仕様です。これは、例えば勤務時間とすることもで…

Python サーバーへSSH接続してcsvファイルを読み込んだり、SFTP転送によりファイルコピーする「Paramiko」

例えば、WindowsローカルPCにて、Linuxサーバ等とファイルをやり取りするには、FTPソフトであるFFFTPやWinSCPなどを使用する方法があります。本記事では、そのようなソフトを使用するのではなくて、Pythonスクリプトで同様のことをする雛形コードを載せまし…

Python 大量のファイル名を一括で変更する

本記事では、下図のように多数のファイル名をrename(リネーム)する雛形コードを載せました。 上の例では、各ファイル名にある「スライド」を「slide_」にして、ファイル番号「1, 2, …, 10…」を「01, 02, …, 10…」のように2桁の0埋めに、ファイル名を変更し…

Pyhotn 線図の細線化「scikit-image × sknw」とsvgファイルの作成「svgwrite」

本記事では、下図のような画像ファイル(.jpgや.png)の線図のラインをpathとしたsvgファイルを作成するPythonの雛形コードを作成しました。 作成したsvgファイルは、CADソフトで読み込むことが出来ます。下図は、オープンソースのFreeCADで読み込んだ例です…

Pyhotn 線図の細線化「cv2.ximgproc.thinning」とsvgファイルの作成「svgwrite」

本記事では、下図左のような線図の線を検出して、下図右のようにCADで読み込めるsvgファイルを作成する雛形コードを載せました。 線図の線は、領域ごとに閉じたポリゴンとして作成します。そのため、押し出すことができます。下図は、オープンソフトのFreeCA…

Python 同じインデックスを抽出して、列データを連結する「Pandasのmerge」

本記事では、2つのデータフレームがあって、共通のindex(行番号,行名)の行データに対して、列データを連結する手順を載せました。もし、重複する列名がある場合はそれらを削除する操作も記載しています。 import pandas as pd # データ1 df1 = pd.read_cs…

Python 「Pandas」指定条件にあてはまる or あてはまらない要素を置換する「mask, whereメソッド」

本記事では、表題を成す雛形コードを2つ載せました。 ▼1. 指定条件にあてはまる要素を置換する場合は、mask()メソッドを使用する import pandas as pd # csvファイルを読み込むdf = pd.read_csv('test_data.csv') df # 特定の列に対して、指定条件にあてはま…

Python csvファイルを標準モジュール「csv」で読み込む代表例4つ

本記事では、csvファイルを外部ライブラリ「pandas」ではなくて、pythonの標準モジュール「csv」で取得する雛形コードを4つ載せました。 # 1. csvを1行ずつリストで抽出する場合 import csv with open('iris-dataset.csv', encoding = 'utf-8', newline = ''…

Python 特定の列に対する指定条件で、行データ(外れ値)を削除する方法「Pandasのquery」

本記事では表題のことを成す雛形コードを載せました。例題データには、機械学習でお馴染みのボストンデータセットを用いました。入手方法はネット情報から得られます。 ▼元データのグラフ化 #!/usr/bin/env python # coding: utf-8 # In[1]: import pandas a…

Python Pandas行方向に周期的にデータを分割して抽出する

本記事では、pandasデータフレームにて、行方向のデータを等分割する雛形コードを載せました。 例えば、下図左はアイリスデータセットで150行あります。これを下図右のように例えば、10行ずつに分割したデータフレームを新たに作成してリストへ格納します。 …

Python 楽天トラベルWeb API(REST)によるホテル情報の抽出「requests」

'22/04/13更新:堅牢性のためにエラー処理などを追加 本記事では、下図のようにホテル情報を抽出する雛形コードを載せました。使用するライブラリは「requests」です。 はじめに、楽天IDが必要なので、登録してない場合は登録します。そして、次のリンク先に…

Python ファイルパスから簡単に、ファイル名,拡張子なしファイル名,拡張子を取得する

ファイルパスからファイル名を取得するには、次のように、os.path.basename()を使用します。 import os file_path = r'D:\program\python\11_抽出\ファイルパスからファイル名と拡張子を取得する\data_1.csv' # ファイルパスから、ファイル名の取得 file_nam…

Python pandasで日付型(時間型)を操作する

本記事では、pandasで特定列を日付型へ変換し、続けて色々操作する雛形コードを載せました。主に下図のような処理をします。 はじめに、日付型(時間型)へ型変換するのは次の通りです。 df['日付'] = pd.to_datetime(df['日付']) そして、一連の処理は下記…

Python 株ランキングを例に、html解析によってデータを抽出してcsvへ保存する「BeautifulSoup」

本記事では、html解析により、web上のデータを抜き出し、csvへ書き出す雛形コードを載せました。下図は、日経HPの株の売買ランキングを抽出した場合の例です。証券コードと銘柄名を抽出してcsvへ出力します。 ライブラリのインストールは次の通りです。 pip …

Python 楽天証券のマーケットスピードⅡとエクセルRSSから、チャート時系列データをcsvで保存する「win32com」

本記事の雛形コードを実行するには前提条件があり、それは次の通りです。楽天証券で口座を開設していること。また、Windows環境である必要があります。それは、楽天証券のツールであるマーケットスピードII (MarketSpeed2)を使用するためです。 そして、マ…

Python ファイル名の番号を数値で抜き出す

例えば、下図のようにファイル名に番号があるファイルが複数あるとします。 それを下図のように、リストで数字を抽出します。 その雛形コードは次の通りです。 # ファイル番号を取得する# 変数「file_list」はファイル名のリストです。 No_list = [] for fil…

Python カテゴリ変数を作成し、散布図を作成する

本記事では下図の凡例(legend)のRMのようにカテゴリ変数を指定数に分割して作成する。またそれを散布図にする雛形コードを載せました。 下図中にある列名「RM」のデータから、列名「label」というカテゴリ変数を作成します。それを上図のようにカテゴリ別…

Bash 変数から指定範囲の文字列を抜き出す

本記事では、例えば、data_12.csvの文字列変数に対して、6番目から2つまでの文字列12を抽出する雛形コードを載せました。下図はその結果例です。12を抜き出して、拡張子に.txtをしてシンボリックリンクを貼っています。 ■本プログラム #!bin/bash my_file="d…

Python 交互作用図を作成する「interaction_plot」

'22/06/10更新:グラフの体裁のため、雛形コードを多少編集しました。 本記事では、下図のような交互作用図を作成する雛形コードを載せました。縦軸は、出力指標Yのデータ平均で,横軸と凡例は入力因子Xです。 例えば、凡例によって線の傾きが異なることがあ…

Python ファイルパスからフォルダパス,フォルダ名,ファイル名,拡張子,拡張子なしファイル名を取得する「pathlib」

'21/12/11更新:新しいファイルパスをリストから作成する方法に変更した。またzip圧縮するコードも追記。 本記事では、下図のようにファイルパスからフォルダパス,フォルダ名,ファイル名,拡張子,拡張子なしファイル名を取得する等の雛形コードを載せまし…

Python 複数のテキストファイルを兎に角、ひとつのファイルに書き出す

下図のように、行列数の異なるcsvファイルが複数ある。 本プログラムを実行すると、兎に角、下図のようにひとつのテキストファイルに書き込みます。 ■本プログラム #!/usr/bin/env python # coding: utf-8 # In[1]: import glob import pandas as pd file_li…

Python 2列からなるデータに対して、カテゴリ別にデータを抽出する「pandasのgroupby×apply」

下図のような2列のデータがある。Label列には A, B, Cという3つのカテゴリがあり、それぞれに対応しているNo列の数値をリストで抽出する雛形コードを載せました。 本プログラムを実行すると、下図のようなデータを得ることができます。A, B, Cに属している数…

Python リストからn個ずつ取り出す

下図のようなリストがある。要素は15個。 本プログラムを実行すると、下図のように4つずつ取り出してタプルに格納します。 ■本プログラム import numpy as np # Noリスト化を作成する No_list = np.arange(1, 16, 1).tolist() print(No_list) # リストからn…

Python Excelセルの行列範囲を自動判別して抽出する「openpyxl」

本記事では、下図のようにエクセルファイル中の先頭行ではなくて、中途半端な位置に表データ(行列範囲)がある場合に、特に適用します。この行列範囲を自動で判別して、抽出してpandasデータフレーム形式へ読み込む雛形コードを記載しました。 その仕組みは…

Python 指定列に対して、リスト内の値と一致する要素がある行を複数一括で抽出する「Pandasのquery」

例題データは、機械学習でお馴染みのアイリスデータセットを用いました。150行×5列のデータです。 本記事でやりたいことは、例えば、sepal_lengthという列(カラム)に対して、5, 5.5, 6の値である行を全て抽出したい場合に適用し、次のようにします。リスト…

Python 指定パス内のフォルダ容量の一覧表を作成する

本記事では、指定したパス内にある全てのフォルダ(ディレクトリ)の容量サイズを取得して、降順にソートしてcsvファイルへ出力する雛形コードを載せました。 下図がその実施例で、指定したパス「D:/program/python/98_抽出」内のフォルダ毎の容量をランキン…

Python 列名部分一致で列を複数選択する「pandasでstr.contains()」

列名が山ほどあって、列名(カラム名)に特定の文字列がある列だけを抽出したい場合もあるかもしれません。その雛形コードを載せました。 例題データは、機械学習データセットで有名なアイリスを用いました。これのcsvはネットで検索すれば出てきて、例えば…

Python サブフォルダ一覧を取得する。または,指定した拡張子のファイル一覧を取得する「pathlib」

本記事では、表題の2つの雛形コードを載せました。 ■1. カレントディレクトリ以下のサブディレクトリ一覧を取得したい場合 import pathlib # カレントディレクトリ以下のサブディレクトリを取得する get_dir_list = list(pathlib.Path('.').glob('**')) for …