ABテストの有意差判定の具体的な方法について、さらに深堀りしていきましょう。
ABテストでは、CVRをはじめとするデータの実績値をそのまま受け止め、「見かけ」だけで判断してしまうと誤った判断になりかねません。検証結果を見誤ると、サイトに影響を与えてしまう可能性があります。単純に各パターンの成約件数を比較しても、正しい検証をしたことにはなりません。
有意差の判定方法には、「標準偏差」からデータの不確かさを求める方法と、「確率密度」をもとにCVRの正確さから求める方法がありますので、それぞれ詳しく解説します。
ABテストでも、データの実績値をそのまま受け止め、「見かけ」だけで判断してしまうと誤った判断になりかねません。
検証結果を見誤ると、サイトに影響を与えてしまう可能性があります。単純に各パターンの成約件数を比較しても、正しい検証をしたことにはなりません。
標準偏差とは?標準的な中心からのズレ
そのため、統計学ではこのバラつきを表現する代表値として、「標準偏差」を使用します。「標準偏差」の「偏差」とは、中心からのズレを意味しているため、「標準偏差」は、「標準的な中心からのズレ」を表しているのです。例えば、CVRが10%、その標準偏差が2%の場合には、「標準的に10%から2%程度ズレの可能性ある」という解釈になります。必ずしも2%のズレが発生するわけではないけれど、起こる可能性はあるといえるでしょう。
区間推定とは?ズレがどのくらいの確率で収まるのか推定
そのズレはどのくらいの確率で範囲内に収まるのでしょうか?それを推定するのが、「区間推定」です。
統計学上の「不確かさ」を持つCVRのバラつきの範囲が、どこまでの数値に収まるのかを確率で表します。
先の例で見た、CVR10%・標準偏差2%のときでは、±2%の範囲(8~12%)に収まる確率は68%とされます。これを2倍に広げた±4.0%の範囲(6~14%)では、95%になります。
区間推定とは、このように母数(CVRの真の値)をある程度の幅を持たせて推定する方法で、この区間は「信頼区間」と呼ばれます。
「不確かさ」という概念は、分かったようでも理解が難しいものです。統計学の考え方は、CVRの値を正しく解釈できるようになります。成果に直結するサイトを構築するうえで、こうしたベースとなる知識は非常に重要になります。
ABテストから得られたCVRの値が、どのくらい正確なものかを知るための方法として、「確率密度」があります。
CVRの確率密度の求め方
確率密度を使うことにより、どの幅に本当のCVRがどの確率で収まるかを推定できます。ただし、CVRの確率密度を数式だけで求めようとすると、かなり複雑になるため、グラフの形で考えると理解がしやすくなります。
CVR実測値のグラフを作成すると、10%で最も高い山型となり左右同型に低くなっていきます。「±標準偏差」の間に収まる確率は68%、「±2×標準偏差」に収まる確率は95%、「±3×標準偏差」」に収まる確率は99%です。
これを見ると、確率と該当する数値面積が一致しているのが分かります。Excelでは、「NORMDIST関数」を使って、グラフから面積を計算することが可能です。ただし、求められるのは「〇〇以下」の解となるため、「NORMDIST関数」を使ってそれぞれの面積を算出した後、該当する面積を求めましょう。
正規分布について
このような左右対称のグラフの形を、正規分布(normal distribution)と呼びます。その名称通り、自然界や人間社会のあらゆるデータでよく見られる現象です。特徴としては、平均値・最頻値・中央値が一致しており、そこを中心に左右対称に分布が広がります。正規分布の形状は、標準偏差によって決まり、標準偏差が大きいほどグラフは扁平になり、小さいほど狭く高くなる傾向です。
確率密度の概念を正しく理解することで、得られたCVRの数値を本当に信じられる根拠ができます。データの表面に惑わされず正しく数値の意味を読み解ければ、LPO(ランディングページ最適化)の信頼性を高めていけるでしょう。
2つの項目を比較して意味があるのには、前提条件として比較値の信頼性が求められます。
不確かな情報同士を比較しても、さらに不確かな情報しか得ることしかできません。
怪しい情報同士を比較するともっと怪しくなる
例えば、ある地域での朝食で食べられるパンとご飯の割合を比較する場合で考えてみましょう。
パンを3日以上食べている家庭がプラスマイナス10件で100件、ご飯を3日以上食べている家庭がプラスマイナス5件で60件という調査結果があります。
パンを食べているのは±10件なので90~110件、ご飯は±5件なので55~65件です。パン世帯が多いのは分かりますが、その差は最大2倍、最低約1.4倍と割合を調べるという目的にかなっていません。
CVRの比較も同様で、怪しい要素を持つ情報同士を掛け合わせても、正しい結論からは遠くなっていきます。
2つのクリエイティブを比較する事例
では、具体的に、2つのクリエイティブを比較してみましょう。
パターンAとパターンBのCVRをそれぞれ「CVR_A」「CVR_B」 とします。パターンBのCVR値が大きかった場合の差は、「CVR_B - CVR_A」で示されます。さらに、両パターンの差の標準偏差「σ(CVR_B - CVR_A)」を求めましょう。
「CVR_B - CVR_A」の確率密度は、正規分布の形状を取りますが、実際にパターンBのほうが優位であることはどうすれば立証できるのでしょうか。それには、「CVR_B - CVR_A」の値が0より大きい確率を求めます。
σ(CVR_B - CVR_A)= √(CVR_A^2 + CVR_B^2)
CVRの差の標準偏差は上のように計算でき、これは分散の加法性という統計学の基本的な概念です。二つの値の和や差の不確かさは、個別の値の不確かさの合計よりも小さくなります。これは片方が下振れしているときに、もう片方が上振れし、不確かさが相殺される場合があるためです。
先に出てきた「NORMDIST関数」を使っていきましょう。
上記の例では
CVR_A = 8.0% ± 1.0%
CVR_B = 10.0% ± 0.5%
CVR_B - CVR_A = 2.0%
σ(CVR_B - CVR_A) =1.118%
となります。
NORMDIST関数の引数は「値」「平均」「標準偏差」「関数形式」の4つです。
「値」となるのは「0より大きい確率」の基準となる0。「平均」には、2%=0.02が入ります。「標準偏差」=1.118%、「関数形式」は、グラフ下部の面積を求めるためTUREとなります。「NORMDIST関数」で求められるのは、「●以下の面積」のため、「0よりも大きい」を求めるには、1=100%から「●以下の面積」を引きます。
= 1 - NORMDIST(0, 0.02, 0.0118, TRUE)
ここで説明した内容は、統計学の基本的な概念である「分散の加法性」「正規分布の特性」が応用されています。ABテストの結果を正しく比較する際には、こうした知識があるとより正しく評価できるでしょう。データにかかわる仕事では、統計学が重要な役割を持つことが理解できたのではないでしょうか。