[jqコマンド] ログデータを集計する時は”group_by”がめっちゃええ感じ

Pocket
LINEで送る
GREE にシェア
LinkedIn にシェア

こんにちわ。
 

SQLコマンドを覚えることよりも、JQコマンドを極めたほうが得と普通の人とは違うベクトルで考えている、下駄です。
 

「ログデータ」とかけまして、
 

「ストレス」と、ときます。
 

そのココロは・・・
 

トラブルがあるとどんどん溜まっていきます。

jqコマンドで集計するの難し〜〜〜

PODCASTラジオをスタートしてから、アクセス数が伸びるのが非常に面白く、ログデータシステムを構築する手間も惜しまない状態なんですが、
 

ナンチャッテ・ラジオ「聞くだけでプログラムが学べるラジオ」
 

そんなログデータの分析も、以下のような条件でログをためています。
 

1. PODCASTユーザーのmp3アクセス(RSS)
2. WEBサイトでのmp3再生
3. 管理画面でのmp3再生
 

そしてログはこんな感じ。
 

2020年4月9日の一部を抜粋
 

 

IPアドレスと、UserAgentは、伏せ字にしてます。
余談ですが、UAにpodcastは、ちゃんと記述があるので、わかりやすいですね。
 

dateはアクセス日
timeはアクセス時間(秒まで)
file_idは内部ファイル番号(エピソード番号)
typeは、”0″がpodcast(rss)、”1″がwebサイト、”2″が管理画面です。
 

この状態で、日別、エピソード別、タイプ別のデータ集計をやるという事になります。

jqコマンドでTRY

以前に行ったタイプ別の判定で、初期仕様で”type”の箇所が無いログがあったので、その判定処理も入れた形にしたいので、
下記ページも参考にしてその続きになります。
 

[jqコマンド] jsonデータログから発生順位ランキングを取得する方法
 

そして、前回は単純に日別のアクセス数だけだったのに対して、今回は、エピソード別という要素も加わります。
 

出来上がりのソースから紹介しますね。
 

 

すげ〜長いんですが、これで返る値はこちら。
 

 

dateをデータに埋め込んでいる形ですが、読み込むファイルが日別データであれば、この値は割愛できます。
 

そのまま、dateをキーにした連想配列にぶっこむだけです。
 

そんなわけで、データをjqで集計できたら、javascriptでajaxアクセスしてこのデータを受け取り、少し整形して、chartシステムに受け流して上げれば、グラフ表示することができますね。
 

解説

今回のjqコマンドのポイントは、group_byという機能です。
 

任意に抽出した値(今回は、連想配列として値を作っています)、

 

このフォーマットでgroup_byをすると、同じ値を1つの配列にまとめてくれるという便利機能です。
 

あとは単純に最後にそれを呼び出して、countキーを作って、そこの作られた配列のlengthを入れているだけです。
 

少しややこしく感じるかもしれませんが、データベース集計などをやったことのある人であれば複数のキーに対しての集計値が取得できる、非常に便利な方法で有ることがわかると思います。
 

さて、JQコマンドを使って、次は何をしよか・・・

Leave a Reply

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です