サイトへのリファラスパムで消耗しているなら、Analyticsのセグメント機能を使おう!

サイト運営者の方々に伺いたいのですが、今月に入ったくらいから、リファラスパムの量がすごくないですか?

それも大体がロシアのSamara州という所から。

twitterでもこのようなつぶやきが…。

 


 

無視しておけば良いと言えば良いのですが、PVなどが正確に測定できなくなってしまうのがちょっと困ります。

何よりもウザい

まあ普段からちょくちょくあるんですが、今回は特に多いような気がします。

絶対にクリックしてはダメ!サイト運営者はリファラスパムにご注意!!

2015.01.24

 

というわけで、Google Analyticsのデータからゴミデータを除去する方法をご紹介!

 

セグメント機能を使う

Analyticsには、「セグメント」という機能があります。

たぶん本来はアクセスした人の年齢層、購買層、国、などなど色々な条件でデータをフィルタリングするために使うのだと思います。

いわゆるマーケティングですね。

しかし今回のようなスパム・ゴミデータを除去するのにも使うことが出来ます。

さっそく設定して行きましょう!

 

▼まずは「管理」に移動して、「セグメント」という項目を選びます。

▼するとユーザー属性の設定画面が出てきますが、今回は使いません。「条件」を選択します。

 

▼このような画面に移動します。矢印の部分をクリックすると…

 

▼ずらっと大量のフィルタ条件が出てきます。見てもよくわからないものも多いです…。

 

この中から条件を選び、含めるor含めない、ORやANDを駆使して、自分の条件に合うフィルタを作成します。

 

▼参考までに、僕のフィルタ条件です。

  • ホスト名

リファラスパムは実際にサイトにアクセスしているわけではなく、Analyticsの送信するアクセスデータを偽装しています(たぶん)。

そのため実際には存在しないアドレスにアクセスしてきます。

例えば僕のサイトでは、ドナルド・トランプが云々…みたいなアドレスが表示されたりもしていました。

ですので、間違いなく自身のサイト(アドレス)にアクセスしているデータのみを選別します。

(blog.gadgetshiki.techが入っているのは、ドメイン変更前の名残です。)

 

ここまで説明しておいてアレですが、もう面倒なのでロシアからのアクセスは全て無視します。

このサイトは全て日本語です。

ロシア在住の日本人が見に来る…という可能性も捨てきれませんが、もうそれは誤差の範囲とします。

 

  • ランディングページ

ランディングページというのは、ユーザーが最初にそのサイトに到達したページのことです。

有名サイトであればサイト名で検索→トップページに到着、ということも十分ありえますが、このサイトではまずありません。

99.9%、検索結果から個別の記事に到達します。

ですので「いきなりトップページに来る」というパターンも誤差の範囲として無視します。

 

もっと有名なサイト、大規模なサイトではもっと色々なパターンの考慮が必要だとは思いますが、とりあえず僕はこれで十分です。

 

 

セグメントを適用する

それでは作成したセグメントを適用してみましょう。

Analyticsの画面から、ユーザーサマリーのページに移動します。

▼「すべてのユーザー」の右隣に、「セグメント」という項目があるので、クリックします。

 

▼すると先程作成したセグメントが一覧に出てくると思うので、チェックを付けて適用ボタンを押します。

 

▼すると、なんということでしょう…!!

 

グラフの表示が変わりました。

青色が「すべてのユーザー」、オレンジ色が今回作成したセグメントを適用したものです。

つまりリファラスパムを除外したデータになります。

 

▼矢印のあたりでスパムが爆増していることがわかります。

 

▼数値はお見せできませんが、グラフ下のデータも比較して表示されるようになります。

 

というわけで、Analyticsのセグメント機能でした。

今回のようなケース以外でも、より細かなアクセス解析などに利用できると思いますので、覚えておいて損はないと思います!

 

というわけで今回は以上!

 
photo credit: Visual Content Data Breach via photopin (license)