抽出

Python google-search-consoleの検索パフォーマンスで取得したURLからページタイトルを取得する「BeautifulSoup」

'21/05/12更新:「ページ.csv」内のヘッダー名のひとつ「ページ」が「上位ページ」に変更したため、それに対応。 Google Search Consoleは、自分のブログのアクセス状況を調べるツールです。Chromeなどのwebブラウザで操作し、「検索パフォーマンス」にある…

Python 「YouTube Data API」キーワード検索により動画チャンネルのランキングを作成する

本記事では、下図のようにURL、チャンネルタイトル、動画タイトル、閲覧数、いいね数などを抽出してcsvファイルに保存する雛形コードを載せました。APIキーは次のリンク先で取得できます。OAuth 2.0 トークンは不要です。https://console.developers.google.…

Python 「pandas」まとめ。テキストデータ処理の自動化で多用するコード一覧

'22/02/28更新:時間型(日付型)へ変換するコードを追記 本記事では、pandas(パンダス)を活用したデータ処理の頻出操作の雛形コードを載せました。下図はpandasによるデータ操作の一例です。Excel(エクセル)のような表形式で、行列データを自由自在に操…

Python 指定フォルダ内のファイル名、サイズ、日付の一覧を取得する方法

本記事では、指定したフォルダ内にあるファイル名とサイズ、日付の一覧を取得してcsvファイルへ保存する雛形コードを載せました。 例えば、下図のようにフォルダ内に複数のファイルがあります。この中から、拡張子「.exe」のファイルのみをリストで取得後、…

Python ピボットテーブルによるクロス集計。また、時系列データをグラフ化する「pandas」

pandasのpivot_tableで比較的簡単に処理できます。本記事では、データ処理の例として、愛知県の次のリンク先https://www.pref.aichi.jp/site/covid19-aichi/の中程にある新型コロナの「愛知県内の発生事例」のPDFファイル「8月まで [PDFファイル/357KB]」を…

Python 数万行のデータからグループ分けして抽出する

'21/08/07更新 pandasのgroupbyメソッドを用いることで、比較的容易に出来ます。 # 指定した列名にある要素でグループを作成する df_group = df.groupby('列名') # グループ数を数える場合 print(len(df_groupby.count())) 本記事では、その例題として、日本…

Python 行名と列名を指定して、その要素を抽出する「pandas」

'21/08/26更新:説明を補足しました。 本記事では、csvファイルをpandasで読み込み、指定した行名(index)と列名(columns)の要素を抜き出す雛形コードを載せました。行数や列数はいくらでも構いません。 下図のようなcsvファイルがあったとします。これを…

Python 環境変数Pathのパスを削除・追記する/指定した環境変数を削除・追記する「os.environ」

'20/07/23更新:汎用性を高めたコードに更新しました。 本記事では、例えば、アプリケーションの動作検証のため、一次的に環境変数を変更してテストしたい場合に有用です。具体的には、稼働中のPythonプロセスにおいて、環境変数Pathのパスを調べるだけでな…

Python リスト内の要素を指定した間隔「等差数列」でスライスする

偶数番目の要素をスライスする場合は、list[::2]、奇数番目は、list[1::2]とします。Pythonの配列(リスト)は0番目から始まることに注意です。実施例を下図に示します。 そして、list[::3]とすれば、下図のように2つ飛ばしの要素を抽出した新リストを作成で…

Python 画像中の文字認識をして、テキストへ出力する「pyocr/Tesseract-OCR」

光学文字認識の技術であるOCR(Optical Character Recognition)を使用します。 ▼必要なライブラリとソフトのインストール 1. pyocrをインストールするpip install pyocr 2. tesseract-OCRをインストールするWindowsは下記リンク先にexeファイルがあります。 H…

Python 株価データの欠損値をその前後の値で補完後、単純移動平均を算出する「pandas」

'20/05/16更新:移動平均計算を2つ→3つに増やし、計算によって生じた欠損値の行を削除してcsvファイルに出力する仕様に更新した。 本記事では、下図のような単純移動平均のグラフと、そのデータをcsvファイルで保存する雛形コードを載せています。 ●株価デー…

Python ファイルの存在をチェックし、有れば更に指定文字列にある値を抽出して別ファイルに書き出す

本コードの実施例を次に示します。例えば、下図のように4つのファイルがあるとします(数はいくらでも構わない)。 本コードを実行すると、下図のようなデータを別ファイルへ書き出す仕様です。 ■本プログラム ①辞書型のキーと値を同時に取り出す場合: for …

Python 【RPA】再帰的にWebページを完全な「html」または「mhtml」で自動保存する

本記事では、PythonでRPA(Robotic Process Automation)を行う実施例を載せました。はてなブログ記事をサイトマップ「sitemap.xml」から、全自動で保存する雛形コードで動作例は次の動画です。 www.youtube.com 手法は、前提としてChromeブラウザを使用しま…

Python 株価を取得するAPI「yahoo_finance_api2」

本記事では例えば、下図のように1年分の株価データをダウンロードして、グラフ化とcsvファイル化するコードの雛形を記載しました。 ライブラリのインストールは下記のようにpipで行います。 pip install yahoo_finance_api2 ■本プログラム #!/usr/bin/env py…

Python pdfファイル内の表を読み取る「camelot」

本記事では、下図のようなpdfファイル中に表がある場合に適用する。下図例は愛知県内の感染者・遺伝子検査件数 - 愛知県よりダウンロードできる('20/04/22現在)。 表を抽出するに必要なライブラリ「camelot」は下記のようにpipでインストールします。 $ pi…

Python マクロファイルを複製して実行するスクリプトの雛形コード

本コードの実行例を示します。下図中の「do.py」が本プログラムで、それ以外の「macroA.py」「macroB.py」「macroC.py」がオリジナルのマクロ(スクリプト)ファイルとします。 本プログラムを実行すると下図のように、マクロ(スクリプト)ファイルを複製し…

Python グラフ化/複数列抽出/列計算/列方向連結/列方向ソートする方法「pandas」

本記事に記載してるコードの仕様説明をします。下図のようなcsvファイルがある。 aaa,bbb,y,x,ccc 0.01,1,100,1,10 0.025,2,40,2.5,9 0.05,3,20,5,8 0.075,4,13.33333333,7.5,7 0.1,5,10,10,6 0.2,6,5,20,5 0.3,7,3.333333333,30,4 0.4,8,2.5,40,3 0.5,9,2,5…

Python ファイル暗号化「画像ファイル/XOR演算/MACアドレス」の3つを利用した方法

本記事では、ファイルを暗号化する方法と、それを復元する方法について記載しています。 下図は、本プログラム実行前の状態です。ファイルが3つあって、一番左が暗号化に利用する画像ファイル「key.jpg」、中央の「secret_data.csv」が暗号化したいデータフ…

Python 高速フーリエ変換(FFT)による周波数解析「SciPy」

高速フーリエ変換(FFT:Fast Fourier Transform)は、離散フーリエ変換を高速に解くアルゴリズムのことです。 本記事では、合成波から個々の周波数を抽出する雛形コードです。以前、記事にしたPython ねこふんじゃったを演奏する「PyAudio」 - HK29’s blogで…

Python ファイルやフォルダ操作 覚えておくべき19の方法

'21/08/01更新 本記事では、ファイルやフォルダの頻出操作19の雛形コードを載せました。1. フォルダパスやファイルパスをos.path.join()で作成する方法2. 逆に、ファイルパスやファイル名をos.path.filename()で取得する方法3. ファイルの操作関連 ・ファイ…

Python PDFファイルをページ毎に分割/日本語テキストを抽出/画像を抽出する方法

本記事では、題目を成すための方法について、「PyPDF2」「pdfminer.six」「fitz」「PyMuPDF」の4つのライブラリのインストール方法とコード例を載せました。1. PDFファイルをページ毎に分割して.pdfで保存する「PyPDF2」 pip install PyPDF2 2. 日本語テキス…

Python 複数列を指定して、2軸の散布図を作成する「Matplotlib」

'22/05/03更新:コードを簡潔に見直しました。 本記事では、2軸プロットの散布図を作成する雛形コードを載せました。例えば、下表のような複数列のcsvデータがあったとします。x軸に列名「time」, Y軸の第一軸に列名「linear」, Y軸の第二軸に列名「log」を…

Python 輪郭の検出とその座標の抽出「OpenCV」

本記事では、画像ファイルの物体の輪郭を抽出する雛形コードを載せました。検出手法を関数として4つ載せました。いずれも処理の大まかな流れは、2値化してしきい値で判別します。その2値化が画像に依っては難しいのです。 そのため、毛色の異なる次の2つのリ…

Python 1ファイルに全ステップ分が記述されたcsvから散布図を作成する「時間に関する列がない場合」

'21/02/26更新:本文更新。 下図のような行方向に全ステップの時系列データがあるとします。この例では、Time,1 Time,2 Time,3…で区切られています。 本プログラムを実行すると、下図のように時間毎にグラフにプロットした画像ファイルで保存します。 ちなみ…

Python 1ファイルに全ステップ分が記述されたcsvから散布図を作成する「時間に関する列がある場合」

'21/02/26更新:本文更新。 下図のように行方向に全ステップの時系列データがあるとします。この例では、一番左の列に時間に関するデータがあります。 本プログラムを実行すると、下図のように散布図を作成します。この時、指定した2つには赤と青の色を付け…

Python 再帰的にフォルダを探索し、ファイルを整理する

本記事では、例えば下図のように、dirJpgフォルダ内に「1,2,3…」のフォルダがあり、それぞれの中に「picture_A‗数字.jpg」といった名のファイルがある。 dirJpg├─1│ │ picture_A_1.jpg│ │ picture_B_1.jpg│ │ picture_C_1.jpg│ │ …│├─2│ │ picture_A_2.jpg│ …

Python 複数のcsvファイルから指定したxyデータをExcelへ抽出して散布図を作成する「openpyxl」

'20/01/31更新:文末の関連記事を更新したことで、本記事のコードを更新しました。 本記事では、次の1,2のような処理をすることで、最終的に下図のような表と散布図を作成します。1. 複数のcsvファイルから指定した2列をそれぞれ抽出して、列方向へ並べてゆ…

Python 複数のcsvファイルから指定した2列のデータを各々抽出して、ひとつのExcelファイルを作成する「pandas」

'20/01/31更新:コードの汎用性を向上しました。抽出後の各列名を「抽出したファイル名_抽出した列名」とする仕様に変更。例えば下図のように列名順が全て同じでデータ行数が異なるファイルが複数あるとする。 本記事では、下図のように指定2列を各々抽出し…

Python Excelファイルで散布図を作成する「openpyxl」

# '20/01/31更新:右記リンク先更新に伴い、本記事のコードも更新しました→Python csvファイル中にある指定2列を複数ファイルからひとつのExcelファイルを作成する - HK29’s blog 本記事では、下図のような複数のXYデータが列方向へ順番に並んでいるExcelフ…

Python Linuxのターミナルでコマンド実行した結果を読む方法

'20/03/02更新:コードの可読性の向上。はじめに、下図はLinuxのターミナルで、コマンド $ ps aux を実行した例です。 本記事では、上記のようなコマンドラインで実行した結果がスタックであるようなデータを下図のような横棒グラフを作成して可視化する処理…