'21/05/12更新：「ページ.csv」内のヘッダー名のひとつ「ページ」が「上位ページ」に変更したため、それに対応。

　Google Search Consoleは、自分のブログのアクセス状況を調べるツールです。Chromeなどのwebブラウザで操作し、「検索パフォーマンス」にある「エクスポート」＞「CSVでダウンロード」で下図のようなcsvファイルを取得出来ます（但し、登録時点から蓄積されたデータです。数か月分のデータがある場合は抽出区間を指定できます。）

f:id:HK29:20201012022249p:plain

この中で「ページ.csv」ファイルには、下図のようにクリック数や表示回数、CTR(クリック率)、掲載順位など興味深いデータを得ることが出来ます。しかし、タイトルがありません。URLはあります。

f:id:HK29:20201012022600p:plain

そこで、本記事では「BeautifulSoup」を活用してURLからページのタイトルを取得して、下図のように自分のブログ内のページをランキングとした横棒グラフで可視化する雛形コードを載せました。またcsvファイルに保存します。

f:id:HK29:20201012010632j:plain

■本プログラム
Jupyter Labから.pyファイルに出力したのを一部編集したコードです。Anacondaプロンプトで動作確認済みです。

#!/usr/bin/env python
# coding: utf-8

# In[1]:


import pandas as pd
df = pd.read_csv('ページ.csv')
df


# In[2]:


num = 15
df_head = df.head(num)
df_head


# In[3]:


import requests
from bs4 import BeautifulSoup

title_list = []
for i, url in enumerate(df_head['上位ページ'], start=1):
    r = requests.get(url)
    soup = BeautifulSoup(r.text, 'html.parser')
    elem = soup.find("title")
    mytitle = elem.getText().split(' -')[0] 
    print(i, mytitle)
    print(url)
    title_list.append(mytitle)


# In[4]:


df_head_with_title = df_head.assign(タイトル = title_list)
df_head_with_title


# In[5]:


DF = df_head_with_title.iloc[:, [5,0,1,2,3,4]]
DF


# In[6]:


import warnings
warnings.simplefilter('ignore')
import matplotlib.pyplot as plt
#get_ipython().run_line_magic('matplotlib', 'inline')
import japanize_matplotlib
import seaborn as sns
plt.figure(figsize=(16, 10))
sns.set(style='whitegrid', font="IPAexGothic")
sns.barplot(x=df_head_with_title['クリック数'],
            y=df_head_with_title['タイトル'],
            data=df_head_with_title,
            orient = "h",
            palette=sns.color_palette('autumn', n_colors=num))
#plt.show()
plt.tight_layout()
plt.savefig("graph.png")


# In[7]:


DF.to_csv('ranking.csv', index=False, encoding='cp932')


# In[ ]:

下表は、本プログラムによって得られたタイトルとページの対応表です。

タイトル	ページ	クリック数
Python 輪郭の検出とその座標の抽出「OpenCV」	https://hk29.hatenablog.jp/entry/2020/02/01/162533	4525
Python 画像中の文字認識をして、テキストへ出力する「pyocr／Tesseract-OCR」	https://hk29.hatenablog.jp/entry/2020/06/07/233111	2082
Python 指定ファイルの存在をチェックし、無ければファイルを作成する。有れば追記する。	https://hk29.hatenablog.jp/entry/2018/05/01/112953	1337
Python 「LightGBM」による回帰分析	https://hk29.hatenablog.jp/entry/2019/12/31/172437	1312
Python TensorFlow2.0のインストール手順。Pythonのダウングレード方法含む	https://hk29.hatenablog.jp/entry/2019/05/13/003729	1268
Python 顔認証など画像処理するOpenCVのインストール方法	https://hk29.hatenablog.jp/entry/2019/10/13/013741	1104
Python グラフのy範囲を最小値0、最大値は自動設定にする方法「matplotlib」	https://hk29.hatenablog.jp/entry/2020/05/31/235911	1088
Python 画像連結により動画を作成する方法 OpenCV	https://hk29.hatenablog.jp/entry/2019/10/14/165128	1006
Python 実験データを関数にフィッティングする	https://hk29.hatenablog.jp/entry/2018/05/06/215355	886
Python pdfファイル内の表を読み取ってcsv, excelファイル化、横棒グラフ化する	https://hk29.hatenablog.jp/entry/2020/04/22/225844	874
Python 株価を取得するAPI「yahoo_finance_api2」	https://hk29.hatenablog.jp/entry/2020/04/25/170130	810
Python Excelファイルで散布図を作成する「openpyxl」	https://hk29.hatenablog.jp/entry/2019/11/09/175122	807
Python PDFファイルをページ毎に分割／日本語テキストを抽出／画像を抽出する方法	https://hk29.hatenablog.jp/entry/2020/02/08/235809	689
Python scikit-learnによる重回帰分析（データの標準化/正規化含む）	https://hk29.hatenablog.jp/entry/2018/05/14/023231	647
Python 二変数関数の等高線図、3D図を描画する方法	https://hk29.hatenablog.jp/entry/2020/01/31/161508	622