New service "AwesomeQR"

GA4でのトラフィック元の謎を解決できるか?BigQueryと連携した生のデータと比較してみた

5 min 995 views

はじめに

Googleアナリティクス(以下、UAを呼びます。)でトラフィックの元を確認するとき、参照元、メディア、キャンペーンという項目で調べていると思いますが、GA4で、UAで取得していた参照元、メディア、キャンペーンに該当するトラフィックはどう考えたらいいのかと迷ったことはないでしょうか?

そこで、今回は、こちらの謎を解決すべく、GA4の生データを使いながら実際に検証してみたので参考になればと思います。

前置き

ご存知の方も多いと思いますが、GA4でも参照元、メディア、キャンペーンという項目はありまして、GA4では、参照元、メディア、キャンペーンという項目が以下の3種類ずつあります。

  1. 参照元、メディア、キャンペーン
  2. 最初のユーザーの参照元、メディア、キャンペーン
  3. セッション ソース、メディア、キャンペーン

それぞれについてサクッと紹介します。

検証

1.参照元・メディア・キャンペーン

これは明らかにデータが少なく、どう考えてもおかしいとわかるので、Googleのサポートサイトを調べてみるとアトリビューションという項目で記載されています。

詳細を見ると、アナリティクスと統合した広告プラットフォームに関する情報が提供されます。と記載されていまして、これはUAと明らかに違うので、基本的に使うことはないでしょう。

2.最初のユーザーの参照元、メディア、キャンペーン

さて、これはなかなか使えそうな項目に思えます。

Googleのサポートサイトで調べると、ユーザーを最初に獲得した○○となってます。

なので、この意味から考えますと、その期間にウェブサイト、あるいはアプリでいろいろしたけど、その最初の起点となったソースから来たという説明でいいと思います。

例えば、あるAさんが、6月1日にYahoo!の自然検索でホームページに訪れて、6月2日にGoogleのウェブ広告からホームページに訪れたとします。

その場合、ここでいう最初のユーザーの参照元は6月1日、6月2日はともに、Yahoo!で、最初のユーザーのメディアはorganicとなるわけです。

さて、ここで問題なのが、そのソースをどの指標でカウントするのかというところです。

指標として考えられるものは、いくつかありますが、ここでは以下を検討したいと思います。

  1. ユーザーの合計数
  2. セッション数
  3. イベント数

1.ユーザーの合計数

実際にGoogleのデータポータルにて、当社の2022年5月24日から2022年5月31日までのデータを見てみます。

日ごとのユーザーの合計数
日ごとのユーザー合計数

ここで面白いのが、まず、単純にGA4とデータポータルを連携させたデータ(以下GA4データと呼びます)と、GA4をBigQueryと連携させてそのデータをデータポータルと連携させたデータ(以下BigQueryデータと呼びます)では微妙に異なる結果となります。

日ごとのメディア別ユーザー数の合計
メディア別日ごとのユーザー合計数

さらに面白いのが、ユーザーのメディアを列のディメンションに加えると、BigQueryデータの方ではcpc(広告から)の列があるのに、GA4データはcpcが列から消えています。

しかも、BigQueryデータはユーザー合計数が総計で一致するのに、GA4データは、総計がなぜか増えています。

当社では検索広告を出しているので、少なくとも1人くらいは最初のユーザーとしての情報があるはずなのかと思いますが、なぜかGA4では情報がなくなっているので信頼性が低そうな気がします。

2.セッション数

今度はセッション数で比較してみましょう。

日ごとのセッション数
日ごとのセッション数

ここで、BigQueryデータのカウントは、Event Countで、フィルターとして、Event Nameをsession_startに設定しています。

さて、面白いことに、こちらも数字が合わないんですね。

メディア別日ごとのセッション数
メディア別日ごとのセッション数

こちらもユーザーの合計数同様にBigQueryデータでは総計が合いますが、相変わらずGA4では総計が一致しません。

ただ、メディアの列は消失していないですし、わりとBigQueryデータと近い傾向になっているように見えます。

というわけで、ユーザーの合計数よりは信頼できそうな気がします。

3.イベント数

最後にイベント数も比較してみましょう。

日ごとのイベント数
日ごとのイベント数

ここで、GA4データのカウントは、フィルターとして、イベント名をsession_startに設定しています。

こちらは差がわずかに1だけありますが、ほぼほぼ一致しているとみていいと思います。

メディア別日ごとのイベント数
メディア別日ごとのイベント数

ようやく総計がすべて合いました。GA4データとBigQueryデータでは内訳が多少異なりますが、ユーザーの合計数やセッション数よりは信頼できそうです。

3.セッション ソース、メディア、キャンペーン

個人的にはこれがなかなかしっくりくるトラフィック元だと思いますが、最後にこちらの検証もしていきましょう。

ちなみに、意味としては、セッションの開始に関連付けられた○○となっています。

なので、先ほどの最初のユーザーの時の例で説明しますと、例えば、あるAさんが、6月1日にYahoo!の自然検索でホームページに訪れて、6月2日にGoogleのウェブ広告からホームページに訪れたとします。

すると、6月1日のソースはYahoo!、メディアはorganic、6月2日のソースはGoogle、メディアはcpcとなります。

さてこちらも同じ指標で検証していきます。

1.ユーザーの合計数

比較用に上記で使った画像を参考でおいておきます。

日ごとのユーザーの合計数
日ごとのユーザー合計数
メディア別日ごとのユーザーの合計数
メディア別日ごとのユーザーの合計数

さて、相変わらずGA4データは総計が合いません。

また、最初のユーザーのメディアと同様に、cpcの列が消失しております。

上記の検証結果からユーザー合計数を参考にするとややデータとして信頼性に欠けるような気がしますね。

2.セッション数

続いてセッション数を確認していきます。

日ごとのセッション数
日ごとのセッション数

ここで、BigQueryデータのカウントは、Event Countで、フィルターとして、Event Nameをsession_startに設定しています。

メディア別日ごとのセッション数
メディア別日ごとのセッション数

さて、相変わらず総計は合わないですし、今度はGA4データの方に(not set)という列が追加されました。

やはりユーザー合計数よりは信頼できそうですが、謎な情報が追加されているというのが気になります。

3.イベント数

最後にイベント数での検証をします。

日ごとのイベント数
日ごとのイベント数

ここで、GA4データのカウントは、フィルターとして、イベント名をsession_startに設定しています。

メディア別日ごとのイベント数
メディア別日ごとのイベント数

最初のユーザーのメディア同様に、GA4データも総計で合いました。
試しに先ほどの最初のユーザーのメディアとも見比べてみましょう。

メディア別日ごとのイベント数
メディア別日ごとのイベント数

やはり最初のユーザーのメディアとセッション メディアとでは情報がちょっとずつ違うようです。

ですが、結果的にはイベント数ベースで見るとなんとなく信頼できそうではありますね。

結論(提案)

というわけで、今回の結論というか提案ですが、まず、参照元、メディア、キャンペーンは、GA4でどれを選択するかという点で言いますと、2通りあると思います。

最初のユーザーの参照元、メディア、キャンペーンは、とにかく最初にウェブページに訪れた情報を知りたい場合に選択すればいいでしょう。

例えば、新しいランディングページなどを作成して、どういったきっかけで最初に訪れたのかを知りたいといった場合には適切ではないかと思います。

次に、セッション ソース、メディア、キャンペーンは、セッションごとにどういったきっかけで訪れたのかを知りたい場合に選択すればいいと思います。

例えば、購入などのきっかけを知りたい場合、おそらくいくつかのきっかけがあると思いますが、最初のきっかけというよりは、どこからの流入が一番効果がありそうかなどを知りたい場合に向いている気がします。

さて、残るはどの指標を使うかということですが、まず、ユーザー合計数はなんとなくデータが消失しているような気がするので、セッション数なのかとも思いますが、BigQueryデータを見るとイベント数が一番近い気がします。

そもそも、セッション数イベント名をsession_startでフィルタ掛けたイベント数の数値が異なるってどういうこと?と思うので、今後こういったことを解決する情報がありましたら紹介したいと思います。

さいごに

いかがだったでしょうか。

今回は、BigQueryの生のデータがおそらく正しいという立場に立っておりますのでそれ自体考え方が違う可能性がありますので参考としてとらえていただければと思います。

正直、最初あまり意識していないでデータを眺めていましたが、実際にBigQueryデータとの比較までしてみて面白い結果が得られたので、個人的には良かったと思います。

ちなみに、今回データポータルを使用しましたが、GA4の探索でも同じ検証はできます。

ですが、なぜかGA4の探索のデータとデータポータルのデータは微妙に一致しておりません。

メディア別日ごとのセッション数(GA4探索)
メディア別日ごとのセッション数(GA4探索)
メディア別日ごとのセッション数(データポータル)

こうなると、何が正解なのかわかりませんが、傾向的には似ている結果にはなるので、あまり深追いしないでいい解決方法を提案してくれるようなサイトを日々検索したいと思います。

関連記事