ABテストの結果を正しく判断するためには、統計学の考え方を用いる必要があります。
ここでは統計学の入門編を紹介しながら、ABテストにアプローチしていきます。
統計学とは、大量にあるデータの全体像を捉えるため、少量のサンプルを抜き出してそこから得られたものをもとに、母集団の性質について推測を行うという学問です。アンケートでのグループ比較や新薬の実験データの検証などで使われているのはよく知られていますが、応用範囲は多岐にわたります。
ABテストでは一定の期間中に得られたデータをもとにして、ランディングページや広告などの効果を比較します。サイト全体でどのパターンが有効かを過誤なく正しく判断するために、また広告費用に見合う成果を得るためには、統計学の観点が必要となります。
ABテストの結果を正しく判断するためには統計学が有効
統計学では、サンプルから推測された性質が、全体を表すものとして適当であるかどうかの理論づけをしていきます。ある規則性が見られた場合でも、「たまたま起きたのではない」ことを、数値によって証明することが必要です。
ABテストでも、データの実績値をそのまま受け止め、「見かけ」だけで判断してしまうと誤った判断になりかねません。
検証結果を見誤ると、サイトに影響を与えてしまう可能性があります。単純に各パターンの成約件数を比較しても、正しい検証をしたことにはなりません。
コンバージョンレート(CVR)はページビュー(PV)ではなくユニークユーザー(UU)で見る
CVRは、サイト訪問数に対する成約の割合を示すものですが、CV数をどの数字で割るのかがとても重要になります。CVRを求める計算式は、以下の2つです。
CVR = CV数/PV
CVR = CV数/UU
PVは、閲覧回数を表しているので、たとえ訪れているのが一人のユーザーであっても閲覧するごとにカウントされてしまい、集計された分母が大きくなります。多くの商品やサービスでは、CVに至るまでに、複数回閲覧しながら検討をするのが一般的です。一人のユーザーが、訪問するごとにCVの可能性がある特殊な場合を除き、CVRの計算にはUUを使ったほうがより正確な判断につながります。
CVRをきちんと理解する
また、得られた検証結果を正しく解釈するため、データから計算されるCVRには誤差が生じるのを知る必要があります。同じCVRの数値でも、分母の大きさが異なると信ぴょう性が変わってきます。なぜなら、CVRが同じ10%でも、UU数が100と10万ではまったく捉え方が異なるからです。
また、CVRの数値自体を読み解くのにも、注意しなければなりません。
CVRが10%と90%であれば、90%の成果率が高いことはすぐに分かります。では、CVRが50%の場合はどう考えればよいのでしょうか。50%とは、可能性が半々ということなので、CVRが50%に近づくほど、不確かさが大きくなっていきます。
反対にUUは、小さいほど不確かさが増します。CVRには誤差があり、統計学上の「不確かさ」はUUとCVRに依存し、深く関係しているのを理解しておくことが重要です。
CVRを正しく捉えるためには、「不確かさ」を理解する必要があり、統計学では、この「不確かさ」を「標準偏差」で表します。データの集まりを見たとき、個々のデータはバラバラに点在していますが、データによってバラつきが広範囲にわたることもあれば、比較的まとまって存在することもあります。しかし、その違いは一般的な「平均値」には現れません。
標準偏差とは?標準的な中心からのズレ
そのため、統計学ではこのバラつきを表現する代表値として、「標準偏差」を使用します。「標準偏差」の「偏差」とは、中心からのズレを意味しているため、「標準偏差」は、「標準的な中心からのズレ」を表しているのです。例えば、CVRが10%、その標準偏差が2%の場合には、「標準的に10%から2%程度ズレの可能性ある」という解釈になります。必ずしも2%のズレが発生するわけではないけれど、起こる可能性はあるといえるでしょう。
区間推定とは?ズレがどのくらいの確率で収まるのか推定
そのズレはどのくらいの確率で範囲内に収まるのでしょうか?それを推定するのが、「区間推定」です。
統計学上の「不確かさ」を持つCVRのバラつきの範囲が、どこまでの数値に収まるのかを確率で表します。
先の例で見た、CVR10%・標準偏差2%のときでは、±2%の範囲(8~12%)に収まる確率は68%とされます。これを2倍に広げた±4.0%の範囲(6~14%)では、95%になります。
区間推定とは、このように母数(CVRの真の値)をある程度の幅を持たせて推定する方法で、この区間は「信頼区間」と呼ばれます。
「不確かさ」という概念は、分かったようでも理解が難しいものです。統計学の考え方は、CVRの値を正しく解釈できるようになります。成果に直結するサイトを構築するうえで、こうしたベースとなる知識は非常に重要になります。
ABテストから得られたCVRの値が、どのくらい正確なものかを知るための方法として、「確率密度」があります。
CVRの確率密度の求め方
確率密度を使うことにより、どの幅に本当のCVRがどの確率で収まるかを推定できます。ただし、CVRの確率密度を数式だけで求めようとすると、かなり複雑になるため、グラフの形で考えると理解がしやすくなります。
CVR実測値のグラフを作成すると、10%で最も高い山型となり左右同型に低くなっていきます。「±標準偏差」の間に収まる確率は68%、「±2×標準偏差」に収まる確率は95%、「±3×標準偏差」」に収まる確率は99%です。
これを見ると、確率と該当する数値面積が一致しているのが分かります。Excelでは、「NORMDIST関数」を使って、グラフから面積を計算することが可能です。ただし、求められるのは「〇〇以下」の解となるため、「NORMDIST関数」を使ってそれぞれの面積を算出した後、該当する面積を求めましょう。
正規分布について
このような左右対称のグラフの形を、正規分布(normal distribution)と呼びます。その名称通り、自然界や人間社会のあらゆるデータでよく見られる現象です。特徴としては、平均値・最頻値・中央値が一致しており、そこを中心に左右対称に分布が広がります。正規分布の形状は、標準偏差によって決まり、標準偏差が大きいほどグラフは扁平になり、小さいほど狭く高くなる傾向です。
確率密度の概念を正しく理解することで、得られたCVRの数値を本当に信じられる根拠ができます。データの表面に惑わされず正しく数値の意味を読み解ければ、LPO(ランディングページ最適化)の信頼性を高めていけるでしょう。
2つの項目を比較して意味があるのには、前提条件として比較値の信頼性が求められます。
不確かな情報同士を比較しても、さらに不確かな情報しか得ることしかできません。
怪しい情報同士を比較するともっと怪しくなる
例えば、ある地域での朝食で食べられるパンとご飯の割合を比較する場合で考えてみましょう。
パンを3日以上食べている家庭がプラスマイナス10件で100件、ご飯を3日以上食べている家庭がプラスマイナス5件で60件という調査結果があります。
パンを食べているのは±10件なので90~110件、ご飯は±5件なので55~65件です。パン世帯が多いのは分かりますが、その差は最大2倍、最低約1.4倍と割合を調べるという目的にかなっていません。
CVRの比較も同様で、怪しい要素を持つ情報同士を掛け合わせても、正しい結論からは遠くなっていきます。
2つのクリエイティブを比較する事例
では、具体的に、2つのクリエイティブを比較してみましょう。パターンAとパターンBのCVRをそれぞれ「CVR_A」「CVR_B」 とします。パターンBのCVR値が大きかった場合の差は、「CVR_B - CVR_A」で示されます。さらに、両パターンの差の標準偏差「σ(CVR_B - CVR_A)」を求めましょう。
「CVR_B - CVR_A」の確率密度は、正規分布の形状を取りますが、実際にパターンBのほうが優位であることはどうすれば立証できるのでしょうか。それには、「CVR_B - CVR_A」の値が0より大きい確率を求めます。
σ(CVR_B - CVR_A)= √(CVR_A^2 + CVR_B^2)
CVRの差の標準偏差は上のように計算でき、これは分散の加法性という統計学の基本的な概念です。二つの値の和や差の不確かさは、個別の値の不確かさの合計よりも小さくなります。これは片方が下振れしているときに、もう片方が上振れし、不確かさが相殺される場合があるためです。
先に出てきた「NORMDIST関数」を使っていきましょう。
上記の例では
CVR_A = 8.0% ± 1.0%
CVR_B = 10.0% ± 0.5%
CVR_B - CVR_A = 2.0%
σ(CVR_B - CVR_A) =1.118%
となります。
NORMDIST関数の引数は「値」「平均」「標準偏差」「関数形式」の4つです。
「値」となるのは「0より大きい確率」の基準となる0。「平均」には、2%=0.02が入ります。「標準偏差」=1.118%、「関数形式」は、グラフ下部の面積を求めるためTUREとなります。「NORMDIST関数」で求められるのは、「●以下の面積」のため、「0よりも大きい」を求めるには、1=100%から「●以下の面積」を引きます。
= 1 - NORMDIST(0, 0.02, 0.0118, TRUE)
ここで説明した内容は、統計学の基本的な概念である「分散の加法性」「正規分布の特性」が応用されています。ABテストの結果を正しく比較する際には、こうした知識があるとより正しく評価できるでしょう。データにかかわる仕事では、統計学が重要な役割を持つことが理解できたのではないでしょうか。