抽出

Python Excelファイルで散布図を作成する「openpyxl」

# '20/01/31更新:右記リンク先更新に伴い、本記事のコードも更新しました→Python csvファイル中にある指定2列を複数ファイルからひとつのExcelファイルを作成する - HK29’s blog 本記事では、下図のような複数のXYデータが列方向へ順番に並んでいるExcelフ…

Python Linuxのターミナルでコマンド実行した結果を読む方法

'20/03/02更新:コードの可読性の向上。はじめに、下図はLinuxのターミナルで、コマンド $ ps aux を実行した例です。 本記事では、上記のようなコマンドラインで実行した結果がスタックであるようなデータを下図のような横棒グラフを作成して可視化する処理…

Python webスクレイピング/①google NEWSトップページ/②googleニュース検索エンジン/③画像

■本記事はスクレイピングに関して、3つのことをします。 ①google NEWSトップページにあるリンクをスクレイピングする ②googleニュース検索エンジンにキーワード検索をした結果をスクレイピングする 下図のように、タイトルとURLを抽出する。実行する度に、実…

Python XYデータの傾きを対数log補完し、指定Yに交差するXを抽出する

本プログラムの概要は下図です。X,Yデータにおいて、Yデータを昇順(小→大)に順番に指定したY値を越えるかを調べます。もし、指定したYを越えたらその前後の(X, Y)値を取得して対数log補完により傾きを計算します。そして、その傾きを利用して指定したYに…

Python 指定フォルダ内にある指定拡張子の全ファイルを指定フォルダにコピーする

# '20/02/29更新:コードの可読性を良くしました。本記事のデータ処理内容を示します。例えば、下図のようにフォルダが複数あり、各フォルダにはデータファイルが格納されている。ちなみに、本プログラムは「pgm.py」で保存場所はどこでも構わない。 例えば…

Python Windows上でbatファイルを複製し、順次実行する

本記事では、例としてLinuxからWindowsへフォルダ単位でファイルをダウンロードする方法をあげます。まず、WinSCPと呼ぶコンピュータ間でファイル転送を行うソフトウェアを使用するのでインストールします。これはオープンソースであり無料です。 本記事のPy…

Python 特定の末尾名のフォルダに対して処理する方法「glob」と「*」を利用

# '20/03/22更新…コードを見易く刷新しました。 本記事では下図のように複数のフォルダがある中で、例えば、フォルダ名の末尾が「*002」に対してのみ処理をしたい場合についての雛形コードです。 下図は本プログラム実行結果です。ファイル名「*002」だけ、…

Python 指定文字列をファイル内で検出して開始行と終了行を取得する。そして、その区間の複数行を抽出する。正規表現「re」

'20/09/12更新:雛形コードの汎用性を高めました。 文字列を検出するには、正規表現reモジュールを使用します。・先頭文字列をマッチさせたい場合は re.match()・文字列の一部を部分マッチさせたい場合は re.search() 本コードの実施例を示します。下図は抽…

Python 各行データをリスト化し、そのリストを用いて別ファイル内の指定文字列を置換する方法

'20/08/13更新:読みづらかったので、記事構成を編集しました。 下図のように、行方向にデータが並んでいるcsvファイルがあるとします。1列目はインデックス名、2列目以降は各行の数値データです。このデータをpandasで読み込んでリストに格納したり、別フ…

Python 横棒グラフを作成する「matplotlib」

'21/02/26:刷新 本記事では、横棒グラフ化する雛形コードを載せました。下図左のような都道府県別の人口データのcsvファイルがあります。これを下図右のようにソート(並び替え)して横棒グラフ化します。 日本語が含まれてるデータをmatplotlibで扱う場合…

Python 行名を指定して行データをリスト化し、別ファイル内の文字を置換「pandas」

本記事の特記事項はpandasのインデックスのデータ処理について下記2点です。1. インデックス名(行名)を列名で指定して与える下記例では、一行目に列名IDの列がインデックス(行名)になります。df_s = df.set_index('ID')2. インデックス(行名)のその行のデー…

Python 指定列の要素に対して、部分一致によりデータをリストで抽出。それを用いて置換する方法「pandas」

'20/08/15更新:インデックス番号を1から振り直すコードを追記。また、備忘録の観点から、本記事の構成を再編集しました。 1. ある列を対象に部分一致したその行データを抽出したい場合 df[df['列名'].str.contains('部分一致にしたい内容')] 完全一致の場合…

Python 再帰的にディレクトリを探索する。そして、指定ファイルを指定ディレクトリへコピー or カレントディレクトリにある指定ファイルを消去するスクリプト

'22/06/18更新:コピーする場合、もし、実行前にそのディレクトリがすでに存在すれば、自動的に一旦そのディレクトリを丸ごと削除してから作成します。 ▼仕様1. 再帰的にサブディレクトリ以下を探索し、指定したファイル名にマッチしたファイルをカレントデ…

Python 文字列を指定文字で分割してリスト化「split」。改行コードを除去する「rstrip」

'20/03/21更新:コードを見易く更新しました。 分割対象文字を左側から検索するsplit、右側から検索するrsplit、改行コードを除去するrstripメソッドを使用します。 本記事では、下図のように各行「文字列=数字」となっている。対象となるabcまたはghiを見つ…

Python 指定列を対象に、抽出したい数値に近い値を抽出する「pandas」

'20/03/21更新:アルゴリズム変更とコードを見易く刷新した。 下図のようなcsvファイルで、3列目の列名「Out」に数値が昇順に並んでいる。抽出したい値が例えば2.5の場合、2.5に近い値を抽出することを目的とする。 No In Out abc 1 21 1.2 a 2 32 1.24 b 3 …

Python 再帰的にディレクトリを探索する「os.walk」そして、正規表現「re」で特定のファイルに対して処理する

# '20/02/29更新:コードを見易く刷新しました。 本プログラムは、カレントディレクトリ以下のサブディレクトリ内を含む全てのファイルを再帰的に検索する。もしcsvファイルがあればその中身をすべてリストへ格納して、All_data.csvというひとつのファイルに…