
サイト運営者の方々に伺いたいのですが、今月に入ったくらいから、リファラスパムの量がすごくないですか?
それも大体がロシアのSamara州という所から。
twitterでもこのようなつぶやきが…。
アクセス解析をするとロシアからのアクセスはリファラスパムが余りにも多すぎるのでロシアのアクセスは全て除外した。お陰で解析結果がクリーンになったので満足している。#サイト運営
— 悲しい笑い (@kanasiiwarai) 2016年12月7日
無視しておけば良いと言えば良いのですが、PVなどが正確に測定できなくなってしまうのがちょっと困ります。
何よりもウザい。
まあ普段からちょくちょくあるんですが、今回は特に多いような気がします。
というわけで、Google Analyticsのデータからゴミデータを除去する方法をご紹介!
セグメント機能を使う
Analyticsには、「セグメント」という機能があります。
たぶん本来はアクセスした人の年齢層、購買層、国、などなど色々な条件でデータをフィルタリングするために使うのだと思います。
いわゆるマーケティングですね。
しかし今回のようなスパム・ゴミデータを除去するのにも使うことが出来ます。
さっそく設定して行きましょう!
▼まずは「管理」に移動して、「セグメント」という項目を選びます。

▼するとユーザー属性の設定画面が出てきますが、今回は使いません。「条件」を選択します。

▼このような画面に移動します。矢印の部分をクリックすると…

▼ずらっと大量のフィルタ条件が出てきます。見てもよくわからないものも多いです…。

この中から条件を選び、含めるor含めない、ORやANDを駆使して、自分の条件に合うフィルタを作成します。
▼参考までに、僕のフィルタ条件です。

- ホスト名
リファラスパムは実際にサイトにアクセスしているわけではなく、Analyticsの送信するアクセスデータを偽装しています(たぶん)。
そのため実際には存在しないアドレスにアクセスしてきます。
例えば僕のサイトでは、ドナルド・トランプが云々…みたいなアドレスが表示されたりもしていました。
ですので、間違いなく自身のサイト(アドレス)にアクセスしているデータのみを選別します。
(blog.gadgetshiki.techが入っているのは、ドメイン変更前の名残です。)
- 国
ここまで説明しておいてアレですが、もう面倒なのでロシアからのアクセスは全て無視します。
このサイトは全て日本語です。
ロシア在住の日本人が見に来る…という可能性も捨てきれませんが、もうそれは誤差の範囲とします。
- ランディングページ
ランディングページというのは、ユーザーが最初にそのサイトに到達したページのことです。
有名サイトであればサイト名で検索→トップページに到着、ということも十分ありえますが、このサイトではまずありません。
99.9%、検索結果から個別の記事に到達します。
ですので「いきなりトップページに来る」というパターンも誤差の範囲として無視します。
もっと有名なサイト、大規模なサイトではもっと色々なパターンの考慮が必要だとは思いますが、とりあえず僕はこれで十分です。
セグメントを適用する
それでは作成したセグメントを適用してみましょう。
Analyticsの画面から、ユーザーサマリーのページに移動します。
▼「すべてのユーザー」の右隣に、「セグメント」という項目があるので、クリックします。

▼すると先程作成したセグメントが一覧に出てくると思うので、チェックを付けて適用ボタンを押します。

▼すると、なんということでしょう…!!

グラフの表示が変わりました。
青色が「すべてのユーザー」、オレンジ色が今回作成したセグメントを適用したものです。
つまりリファラスパムを除外したデータになります。
▼矢印のあたりでスパムが爆増していることがわかります。

▼数値はお見せできませんが、グラフ下のデータも比較して表示されるようになります。

というわけで、Analyticsのセグメント機能でした。
今回のようなケース以外でも、より細かなアクセス解析などに利用できると思いますので、覚えておいて損はないと思います!
というわけで今回は以上!
photo credit: Visual Content Data Breach via photopin (license)