抽出
'22/04/14更新:欠損値のある行を抽出したい場合を追記 指定区間内は、次のようにして抽出できます。orにしたい場合は、|(半角縦棒)です。 # 数値型の指定列の各要素について、指定区間にある値の行を全て抽出する df2 = df[(df['PRICE'] >= 17) & (df['PR…
'22/01/11更新 本記事では、リストから連続する要素を2つずつ順番に取り出す方法の雛形コードを載せました。次のリストを例に3つ示します。 x1_list = [45, 125, 312 ,497, 623, 1015] # 6つの要素 ■方法1. iter()とnext()を利用して、二つずつ取り出す # it…
日付でif文条件分岐するには、日付型である必要があります。日付型は、正確にはdatetimeオブジェクトで文字列型の場合は次のようにして、strptimeメソッドで型変換してから使用します。 date_str = '2020/01/01' # 日付の文字列# dateオブジェクトへ変換する…
'21/05/12更新:「ページ.csv」内のヘッダー名のひとつ「ページ」が「上位ページ」に変更したため、それに対応。 Google Search Consoleは、自分のブログのアクセス状況を調べるツールです。Chromeなどのwebブラウザで操作し、「検索パフォーマンス」にある…
本記事では、下図のようにURL、チャンネルタイトル、動画タイトル、閲覧数、いいね数などを抽出してcsvファイルに保存する雛形コードを載せました。APIキーは次のリンク先で取得できます。OAuth 2.0 トークンは不要です。https://console.developers.google.…
'22/02/28更新:時間型(日付型)へ変換するコードを追記 本記事では、pandas(パンダス)を活用したデータ処理の頻出操作の雛形コードを載せました。下図はpandasによるデータ操作の一例です。Excel(エクセル)のような表形式で、行列データを自由自在に操…
本記事では、指定したフォルダ内にあるファイル名とサイズ、日付の一覧を取得してcsvファイルへ保存する雛形コードを載せました。 例えば、下図のようにフォルダ内に複数のファイルがあります。この中から、拡張子「.exe」のファイルのみをリストで取得後、…
pandasのpivot_tableで比較的簡単に処理できます。本記事では、データ処理の例として、愛知県の次のリンク先https://www.pref.aichi.jp/site/covid19-aichi/の中程にある新型コロナの「愛知県内の発生事例」のPDFファイル「8月まで [PDFファイル/357KB]」を…
'21/08/07更新 pandasのgroupbyメソッドを用いることで、比較的容易に出来ます。 # 指定した列名にある要素でグループを作成する df_group = df.groupby('列名') # グループ数を数える場合 print(len(df_groupby.count())) 本記事では、その例題として、日本…
'21/08/26更新:説明を補足しました。 本記事では、csvファイルをpandasで読み込み、指定した行名(index)と列名(columns)の要素を抜き出す雛形コードを載せました。行数や列数はいくらでも構いません。 下図のようなcsvファイルがあったとします。これを…
'20/07/23更新:汎用性を高めたコードに更新しました。 本記事では、例えば、アプリケーションの動作検証のため、一次的に環境変数を変更してテストしたい場合に有用です。具体的には、稼働中のPythonプロセスにおいて、環境変数Pathのパスを調べるだけでな…
偶数番目の要素をスライスする場合は、list[::2]、奇数番目は、list[1::2]とします。Pythonの配列(リスト)は0番目から始まることに注意です。実施例を下図に示します。 そして、list[::3]とすれば、下図のように2つ飛ばしの要素を抽出した新リストを作成で…
光学文字認識の技術であるOCR(Optical Character Recognition)を使用します。 ▼必要なライブラリとソフトのインストール 1. pyocrをインストールするpip install pyocr 2. tesseract-OCRをインストールするWindowsは下記リンク先にexeファイルがあります。 H…
'20/05/16更新:移動平均計算を2つ→3つに増やし、計算によって生じた欠損値の行を削除してcsvファイルに出力する仕様に更新した。 本記事では、下図のような単純移動平均のグラフと、そのデータをcsvファイルで保存する雛形コードを載せています。 ●株価デー…
本コードの実施例を次に示します。例えば、下図のように4つのファイルがあるとします(数はいくらでも構わない)。 本コードを実行すると、下図のようなデータを別ファイルへ書き出す仕様です。 ■本プログラム ①辞書型のキーと値を同時に取り出す場合: for …
本記事では、PythonでRPA(Robotic Process Automation)を行う実施例を載せました。はてなブログ記事をサイトマップ「sitemap.xml」から、全自動で保存する雛形コードで動作例は次の動画です。 www.youtube.com 手法は、前提としてChromeブラウザを使用しま…
本記事では例えば、下図のように1年分の株価データをダウンロードして、グラフ化とcsvファイル化するコードの雛形を記載しました。 ライブラリのインストールは下記のようにpipで行います。 pip install yahoo_finance_api2 ■本プログラム #!/usr/bin/env py…
本記事では、下図のようなpdfファイル中に表がある場合に適用する。下図例は愛知県内の感染者・遺伝子検査件数 - 愛知県よりダウンロードできる('20/04/22現在)。 表を抽出するに必要なライブラリ「camelot」は下記のようにpipでインストールします。 $ pi…
本コードの実行例を示します。下図中の「do.py」が本プログラムで、それ以外の「macroA.py」「macroB.py」「macroC.py」がオリジナルのマクロ(スクリプト)ファイルとします。 本プログラムを実行すると下図のように、マクロ(スクリプト)ファイルを複製し…
本記事に記載してるコードの仕様説明をします。下図のようなcsvファイルがある。 aaa,bbb,y,x,ccc 0.01,1,100,1,10 0.025,2,40,2.5,9 0.05,3,20,5,8 0.075,4,13.33333333,7.5,7 0.1,5,10,10,6 0.2,6,5,20,5 0.3,7,3.333333333,30,4 0.4,8,2.5,40,3 0.5,9,2,5…
本記事では、ファイルを暗号化する方法と、それを復元する方法について記載しています。 下図は、本プログラム実行前の状態です。ファイルが3つあって、一番左が暗号化に利用する画像ファイル「key.jpg」、中央の「secret_data.csv」が暗号化したいデータフ…
高速フーリエ変換(FFT:Fast Fourier Transform)は、離散フーリエ変換を高速に解くアルゴリズムのことです。 本記事では、合成波から個々の周波数を抽出する雛形コードです。以前、記事にしたPython ねこふんじゃったを演奏する「PyAudio」 - HK29’s blogで…
'21/08/01更新 本記事では、ファイルやフォルダの頻出操作19の雛形コードを載せました。1. フォルダパスやファイルパスをos.path.join()で作成する方法2. 逆に、ファイルパスやファイル名をos.path.filename()で取得する方法3. ファイルの操作関連 ・ファイ…
本記事では、題目を成すための方法について、「PyPDF2」「pdfminer.six」「fitz」「PyMuPDF」の4つのライブラリのインストール方法とコード例を載せました。1. PDFファイルをページ毎に分割して.pdfで保存する「PyPDF2」 pip install PyPDF2 2. 日本語テキス…
'22/05/03更新:コードを簡潔に見直しました。 本記事では、2軸プロットの散布図を作成する雛形コードを載せました。例えば、下表のような複数列のcsvデータがあったとします。x軸に列名「time」, Y軸の第一軸に列名「linear」, Y軸の第二軸に列名「log」を…
本記事では、画像ファイルの物体の輪郭を抽出する雛形コードを載せました。検出手法を関数として4つ載せました。いずれも処理の大まかな流れは、2値化してしきい値で判別します。その2値化が画像に依っては難しいのです。 そのため、毛色の異なる次の2つのリ…
'21/02/26更新:本文更新。 下図のような行方向に全ステップの時系列データがあるとします。この例では、Time,1 Time,2 Time,3…で区切られています。 本プログラムを実行すると、下図のように時間毎にグラフにプロットした画像ファイルで保存します。 ちなみ…
'21/02/26更新:本文更新。 下図のように行方向に全ステップの時系列データがあるとします。この例では、一番左の列に時間に関するデータがあります。 本プログラムを実行すると、下図のように散布図を作成します。この時、指定した2つには赤と青の色を付け…
本記事では、例えば下図のように、dirJpgフォルダ内に「1,2,3…」のフォルダがあり、それぞれの中に「picture_A‗数字.jpg」といった名のファイルがある。 dirJpg├─1│ │ picture_A_1.jpg│ │ picture_B_1.jpg│ │ picture_C_1.jpg│ │ …│├─2│ │ picture_A_2.jpg│ …
'20/01/31更新:文末の関連記事を更新したことで、本記事のコードを更新しました。 本記事では、次の1,2のような処理をすることで、最終的に下図のような表と散布図を作成します。1. 複数のcsvファイルから指定した2列をそれぞれ抽出して、列方向へ並べてゆ…