抽出

Python pandasで指定列に対して、上位N個もしくは下位N個の行を抽出する

ソートせずに、メソッド「df.nlargest」、「df.nsmallest」を使うことで簡単にできます。具体例で示します。下図のような506行×14列のデータがあります。この右端の列「PRICE」の上位25個、下位25個のデータ行をそれぞれ抽出します。 まずは、上位25個の行デ…

Python 指定したワードに対する関連キーワードをGoogle Trendsより抽出する

下図はpythonライブラリpytrendsを用いて、ワード「株」を指定して、ここ1週間の関連ワードを抽出した結果です。ターゲット期間は、日, 月, 年単位で指定できます。 ■ライブラリのインストール pip install pytrends ■本プログラム from pytrends.request i…

Python 指定した地域名の緯度経度を取得する。さらにそれを中心とした四角形を地図上に描く「folium」

本記事では、国土地理院の無料のAPIを利用して、指定した地域名の緯度と経度を取得する雛形コードを載せました。そして、ライブラリ「folium」を利用して、下図のように抽出した緯度と経度を中心座標として矩形を描く雛形コードを載せました。 国土地理院のA…

Python スプライン曲線を作成し、その線上の多数の点座標をcsvファイルに出力する

本記事では、下図のようなスプライン曲線を作成する雛形コードを載せました。 上図左のスプライン曲線の作成コード部分には、https://teratail.com/questions/279780#reply-398529 を引用しています。本プログラムでは、上図右のようにスプライン曲線上に任…

Python Google Earth Engine(GEE)を用いてNDVI(植生指数)を図示する

本記事では、Google Earth Engine(GEE)を用いて、下図のような衛星画像と 正規化植生指標(NDVI, Normalized Difference Vegetation Index)を取得する雛形コードを載せました。 下図は鳥取砂丘の周辺の地区について、2023年の4月,8月,12月の衛星画像とNDV…

Python 日本地図や、指定した都道府県の地図を描く「geopandas」

本記事では、下図のように地図を描く雛形コードを載せました。 日本地図のデータは下記リンク先にある「全国」より取得できます。都道府県の地図データは「全国」から抽出することができますし、個別に「都道府県名」より取得することもできます。 nlftp.mli…

Python 急上昇ワードを抽出する。GoogleトレンドAPI「pytrends」

pythonライブラリ「pytrends」を用いることで、Googleトレンドにおける直近の人気キーワードを容易に抽出することが出来ます。下記はそのライブラリのHPで、公式ではないAPIです。 github.com ライブラリのインストールは次の通りpipでします。 pip install …

Python テキストファイル内を指定文字列で検索して、その行を抽出する

例題として、下図のようなテキストファイルがあります。例えば、文字列LOG_DATAのある行を抽出したいとします。ここでは2箇所あります。 本プログラムを実行すると、下図のように、LOG_DATAのある行を2箇所抽出してcsvファイルとして書き出す雛形コードを載…

Python URLからQRコードを作成する

本記事では、URLからQRコードを生成する雛形コードを載せました。お気に入りのURLを保存しておきたい場合、あるいはそれを誰かに教えるために他のデバイスに転送したい場合に、URLをQRコード(画像ファイル)にすることでスマートにできます。 例えば、下記…

Python csvからsqlite3のDBを作成する。またそのDBを読み込んでデータ抽出したり、csvファイルへ出力する

csvファイルから、sqlite3のデータベース(DB)ファイルを作成するPythonの雛形コード。また、そのDBを読み出して、指定した条件のデータを抽出したり、それをcsvファイルへ出力する雛形コードも載せました。 ちなみに、csvからsqlite3のDBを作成するには、…

Python pandasで特定の要素の値を抽出する「at, iat」

本記事では、下図のようなpandasデータフレーム形式の表データに対して、行名、列名、もしくは行番号、列番号を指定して、任意の要素の値を抽出する雛形コードを載せました。 まず、csvのような表データは、次のようにしてpandasデータフレームで読み込みま…

Python WindowsPCにて、ログオン/ログオフ日時を取得してcsvファイルへ出力する

'22/11/14更新:下図のように取得したい開始日の入力を促すコードの追記しました。さらに、日付を跨いでログインもしくはログオフしたことによって、各日のログオンもしくはログオフの片方が存在しない場合はnanを挿入する仕様にした。 本記事では、下図のよ…

Python サーバーへSSH接続してcsvファイルを読み込んだり、SFTP転送によりファイルコピーする「Paramiko」

例えば、WindowsローカルPCにて、Linuxサーバ等とファイルをやり取りするには、FTPソフトであるFFFTPやWinSCPなどを使用する方法があります。本記事では、そのようなソフトを使用するのではなくて、Pythonスクリプトで同様のことをする雛形コードを載せまし…

Python 大量のファイル名を一括で変更する

本記事では、下図のように多数のファイル名をrename(リネーム)する雛形コードを載せました。 上の例では、各ファイル名にある「スライド」を「slide_」にして、ファイル番号「1, 2, …, 10…」を「01, 02, …, 10…」のように2桁の0埋めに、ファイル名を変更し…

Pyhotn 線図の細線化「scikit-image × sknw」とsvgファイルの作成「svgwrite」

本記事では、下図のような画像ファイル(.jpgや.png)の線図のラインをpathとしたsvgファイルを作成するPythonの雛形コードを作成しました。 作成したsvgファイルは、CADソフトで読み込むことが出来ます。下図は、オープンソースのFreeCADで読み込んだ例です…

Pyhotn 線図の細線化「cv2.ximgproc.thinning」とsvgファイルの作成「svgwrite」

本記事では、下図左のような線図の線を検出して、下図右のようにCADで読み込めるsvgファイルを作成する雛形コードを載せました。 線図の線は、領域ごとに閉じたポリゴンとして作成します。そのため、押し出すことができます。下図は、オープンソフトのFreeCA…

Python 同じインデックスを抽出して、列データを連結する「Pandasのmerge」

本記事では、2つのデータフレームがあって、共通のindex(行番号,行名)の行データに対して、列データを連結する手順を載せました。もし、重複する列名がある場合はそれらを削除する操作も記載しています。 import pandas as pd # データ1 df1 = pd.read_cs…

Python 「Pandas」指定条件にあてはまる or あてはまらない要素を置換する「mask, whereメソッド」

本記事では、表題を成す雛形コードを2つ載せました。 ▼1. 指定条件にあてはまる要素を置換する場合は、mask()メソッドを使用する import pandas as pd # csvファイルを読み込むdf = pd.read_csv('test_data.csv') df # 特定の列に対して、指定条件にあてはま…

Python csvファイルを標準モジュール「csv」で読み込む代表例4つ

本記事では、csvファイルを外部ライブラリ「pandas」ではなくて、pythonの標準モジュール「csv」で取得する雛形コードを4つ載せました。 # 1. csvを1行ずつリストで抽出する場合 import csv with open('iris-dataset.csv', encoding = 'utf-8', newline = ''…

Python 特定の列に対する指定条件で、行データ(外れ値)を削除する方法「Pandasのquery」

本記事では表題のことを成す雛形コードを載せました。例題データには、機械学習でお馴染みのボストンデータセットを用いました。入手方法はネット情報から得られます。 ▼元データのグラフ化 #!/usr/bin/env python # coding: utf-8 # In[1]: import pandas a…

Python Pandas行方向に周期的にデータを分割して抽出する

本記事では、pandasデータフレームにて、行方向のデータを等分割する雛形コードを載せました。 例えば、下図左はアイリスデータセットで150行あります。これを下図右のように例えば、10行ずつに分割したデータフレームを新たに作成してリストへ格納します。 …

Python 楽天トラベルWeb API(REST)によるホテル情報の抽出「requests」

'22/04/13更新:堅牢性のためにエラー処理などを追加 本記事では、下図のようにホテル情報を抽出する雛形コードを載せました。使用するライブラリは「requests」です。 はじめに、楽天IDが必要なので、登録してない場合は登録します。そして、次のリンク先に…

Python ファイルパスから簡単に、ファイル名,拡張子なしファイル名,拡張子を取得する

ファイルパスからファイル名を取得するには、次のように、os.path.basename()を使用します。 import os file_path = r'D:\program\python\11_抽出\ファイルパスからファイル名と拡張子を取得する\data_1.csv' # ファイルパスから、ファイル名の取得 file_nam…

Python pandasで日付型(時間型)を操作する

本記事では、pandasで特定列を日付型へ変換し、続けて色々操作する雛形コードを載せました。主に下図のような処理をします。 はじめに、日付型(時間型)へ型変換するのは次の通りです。 df['日付'] = pd.to_datetime(df['日付']) そして、一連の処理は下記…

Python 株ランキングを例に、html解析によってデータを抽出してcsvへ保存する「BeautifulSoup」

本記事では、html解析により、web上のデータを抜き出し、csvへ書き出す雛形コードを載せました。下図は、日経HPの株の売買ランキングを抽出した場合の例です。証券コードと銘柄名を抽出してcsvへ出力します。 ライブラリのインストールは次の通りです。 pip …

Python 楽天証券のマーケットスピードⅡとエクセルRSSから、チャート時系列データをcsvで保存する「win32com」

本記事の雛形コードを実行するには前提条件があり、それは次の通りです。楽天証券で口座を開設していること。また、Windows環境である必要があります。それは、楽天証券のツールであるマーケットスピードII (MarketSpeed2)を使用するためです。 そして、マ…

Python ファイル名の番号を数値で抜き出す

例えば、下図のようにファイル名に番号があるファイルが複数あるとします。 それを下図のように、リストで数字を抽出します。 その雛形コードは次の通りです。 # ファイル番号を取得する# 変数「file_list」はファイル名のリストです。 No_list = [] for fil…

Python カテゴリ変数を作成し、散布図を作成する

本記事では下図の凡例(legend)のRMのようにカテゴリ変数を指定数に分割して作成する。またそれを散布図にする雛形コードを載せました。 下図中にある列名「RM」のデータから、列名「label」というカテゴリ変数を作成します。それを上図のようにカテゴリ別…

Bash 変数から指定範囲の文字列を抜き出す

本記事では、例えば、data_12.csvの文字列変数に対して、6番目から2つまでの文字列12を抽出する雛形コードを載せました。下図はその結果例です。12を抜き出して、拡張子に.txtをしてシンボリックリンクを貼っています。 ■本プログラム #!bin/bash my_file="d…

Python 交互作用図を作成する「interaction_plot」

'22/06/10更新:グラフの体裁のため、雛形コードを多少編集しました。 本記事では、下図のような交互作用図を作成する雛形コードを載せました。縦軸は、出力指標Yのデータ平均で,横軸と凡例は入力因子Xです。 例えば、凡例によって線の傾きが異なることがあ…