そのABテストの結果は正しい?検定や統計学に基づき正しい判断をする方法

コンバージョン(CV)の高いサイトにしていくためには、いくつかのパターンの優位性を比較しながら、よりよいものを選んでいく必要があります。それを検証するのに欠かせないのが、ABテストです。
しかし、ABテストを実施しても「果たして正しく検証できているのか」「結果を得るための検証期間は何日が適当なのか」などといった疑問に悩まされるケースは少なくありません。

また、ABテストの結果を正確に解析できていなければ、検証結果に従っていてもウェブサイトのCVRが思うように上がっていなかったり、検索結果の順位が上がっていなかったりすることも想定されます。

では、ABテストの結果を正しく判断し、より機能性に優れたサイトに改善するためには、何を考えればよいのでしょうか。今回は、そうした疑問を解消するために必要な統計学の知識やABテストの検証結果を分析する際の重要なポイントについて解説していきます。

ABテストの結果を正しく判断するには

ABテストの結果を正しく判断するためには、統計学の考え方を用いる必要があります。
ここでは統計学の入門編を紹介しながら、ABテストにアプローチしていきます。

ABテストに必要な統計学の基本

統計学とは、大量にあるデータの全体像を捉えるため、少量のサンプルを抜き出してそこから得られたものをもとに、母集団の性質について推測を行うという学問です。アンケートでのグループ比較や新薬の実験データの検証などで使われているのはよく知られていますが、応用範囲は多岐にわたります。

ABテストでは一定の期間中に得られたデータをもとにして、ランディングページや広告などの効果を比較します。サイト全体でどのパターンが有効かを過誤なく正しく判断するために、また広告費用に見合う成果を得るためには、統計学の観点が必要となります。

ABテストの結果を正しく判断するためには統計学が有効

統計学では、サンプルから推測された性質が、全体を表すものとして適当であるかどうかの理論づけをしていきます。ある規則性が見られた場合でも、「たまたま起きたのではない」ことを、数値によって証明することが必要です。
ABテストでも、データの実績値をそのまま受け止め、「見かけ」だけで判断してしまうと誤った判断になりかねません。
検証結果を見誤ると、サイトに影響を与えてしまう可能性があります。単純に各パターンの成約件数を比較しても、正しい検証をしたことにはなりません。

コンバージョンレート(CVR)はページビュー(PV)ではなくユニークユーザー(UU)で見る

CVRは、サイト訪問数に対する成約の割合を示すものですが、CV数をどの数字で割るのかがとても重要になります。CVRを求める計算式は、以下の2つです。

CVR = CV数/PV

CVR = CV数/UU

PVは、閲覧回数を表しているので、たとえ訪れているのが一人のユーザーであっても閲覧するごとにカウントされてしまい、集計された分母が大きくなります。多くの商品やサービスでは、CVに至るまでに、複数回閲覧しながら検討をするのが一般的です。一人のユーザーが、訪問するごとにCVの可能性がある特殊な場合を除き、CVRの計算にはUUを使ったほうがより正確な判断につながります。

CVRをきちんと理解する

また、得られた検証結果を正しく解釈するため、データから計算されるCVRには誤差が生じるのを知る必要があります。同じCVRの数値でも、分母の大きさが異なると信ぴょう性が変わってきます。なぜなら、CVRが同じ10%でも、UU数が100と10万ではまったく捉え方が異なるからです。
また、CVRの数値自体を読み解くのにも、注意しなければなりません。

CVRが10%と90%であれば、90%の成果率が高いことはすぐに分かります。では、CVRが50%の場合はどう考えればよいのでしょうか。50%とは、可能性が半々ということなので、CVRが50%に近づくほど、不確かさが大きくなっていきます。

反対にUUは、小さいほど不確かさが増します。CVRには誤差があり、統計学上の「不確かさ」はUUとCVRに依存し、深く関係しているのを理解しておくことが重要です。

統計学1:不確かさ「標準偏差」とは

CVRを正しく捉えるためには、「不確かさ」を理解する必要があり、統計学では、この「不確かさ」を「標準偏差」で表します。データの集まりを見たとき、個々のデータはバラバラに点在していますが、データによってバラつきが広範囲にわたることもあれば、比較的まとまって存在することもあります。しかし、その違いは一般的な「平均値」には現れません。

標準偏差とは?標準的な中心からのズレ

そのため、統計学ではこのバラつきを表現する代表値として、「標準偏差」を使用します。「標準偏差」の「偏差」とは、中心からのズレを意味しているため、「標準偏差」は、「標準的な中心からのズレ」を表しているのです。例えば、CVRが10%、その標準偏差が2%の場合には、「標準的に10%から2%程度ズレの可能性ある」という解釈になります。必ずしも2%のズレが発生するわけではないけれど、起こる可能性はあるといえるでしょう。

区間推定とは?ズレがどのくらいの確率で収まるのか推定

そのズレはどのくらいの確率で範囲内に収まるのでしょうか?それを推定するのが、「区間推定」です。
統計学上の「不確かさ」を持つCVRのバラつきの範囲が、どこまでの数値に収まるのかを確率で表します。

先の例で見た、CVR10%・標準偏差2%のときでは、±2%の範囲(8~12%)に収まる確率は68%とされます。これを2倍に広げた±4.0%の範囲(6~14%)では、95%になります。

区間推定とは、このように母数(CVRの真の値)をある程度の幅を持たせて推定する方法で、この区間は「信頼区間」と呼ばれます。

「不確かさ」という概念は、分かったようでも理解が難しいものです。統計学の考え方は、CVRの値を正しく解釈できるようになります。成果に直結するサイトを構築するうえで、こうしたベースとなる知識は非常に重要になります。

統計学2:CVRの「確率密度」とは

ABテストから得られたCVRの値が、どのくらい正確なものかを知るための方法として、「確率密度」があります。

CVRの確率密度の求め方

確率密度を使うことにより、どの幅に本当のCVRがどの確率で収まるかを推定できます。ただし、CVRの確率密度を数式だけで求めようとすると、かなり複雑になるため、グラフの形で考えると理解がしやすくなります。

CVR実測値のグラフを作成すると、10%で最も高い山型となり左右同型に低くなっていきます。「±標準偏差」の間に収まる確率は68%、「±2×標準偏差」に収まる確率は95%、「±3×標準偏差」」に収まる確率は99%です。

これを見ると、確率と該当する数値面積が一致しているのが分かります。Excelでは、「NORMDIST関数」を使って、グラフから面積を計算することが可能です。ただし、求められるのは「〇〇以下」の解となるため、「NORMDIST関数」を使ってそれぞれの面積を算出した後、該当する面積を求めましょう。

正規分布について

このような左右対称のグラフの形を、正規分布(normal distribution)と呼びます。その名称通り、自然界や人間社会のあらゆるデータでよく見られる現象です。特徴としては、平均値・最頻値・中央値が一致しており、そこを中心に左右対称に分布が広がります。正規分布の形状は、標準偏差によって決まり、標準偏差が大きいほどグラフは扁平になり、小さいほど狭く高くなる傾向です。

確率密度の概念を正しく理解することで、得られたCVRの数値を本当に信じられる根拠ができます。データの表面に惑わされず正しく数値の意味を読み解ければ、LPO(ランディングページ最適化)の信頼性を高めていけるでしょう。

統計学3:実際に2つのクリエイティブを比較する

2つの項目を比較して意味があるのには、前提条件として比較値の信頼性が求められます。
不確かな情報同士を比較しても、さらに不確かな情報しか得ることしかできません。

怪しい情報同士を比較するともっと怪しくなる

例えば、ある地域での朝食で食べられるパンとご飯の割合を比較する場合で考えてみましょう。
パンを3日以上食べている家庭がプラスマイナス10件で100件、ご飯を3日以上食べている家庭がプラスマイナス5件で60件という調査結果があります。

パンを食べているのは±10件なので90~110件、ご飯は±5件なので55~65件です。パン世帯が多いのは分かりますが、その差は最大2倍、最低約1.4倍と割合を調べるという目的にかなっていません。

CVRの比較も同様で、怪しい要素を持つ情報同士を掛け合わせても、正しい結論からは遠くなっていきます。

2つのクリエイティブを比較する事例

では、具体的に、2つのクリエイティブを比較してみましょう。パターンAとパターンBのCVRをそれぞれ「CVR_A」「CVR_B」 とします。パターンBのCVR値が大きかった場合の差は、「CVR_B - CVR_A」で示されます。さらに、両パターンの差の標準偏差「σ(CVR_B - CVR_A)」を求めましょう。

「CVR_B - CVR_A」の確率密度は、正規分布の形状を取りますが、実際にパターンBのほうが優位であることはどうすれば立証できるのでしょうか。それには、「CVR_B - CVR_A」の値が0より大きい確率を求めます。

σ(CVR_B - CVR_A)= √(CVR_A^2 + CVR_B^2)

CVRの差の標準偏差は上のように計算でき、これは分散の加法性という統計学の基本的な概念です。二つの値の和や差の不確かさは、個別の値の不確かさの合計よりも小さくなります。これは片方が下振れしているときに、もう片方が上振れし、不確かさが相殺される場合があるためです。
先に出てきた「NORMDIST関数」を使っていきましょう。

上記の例では

CVR_A = 8.0% ± 1.0%
CVR_B = 10.0% ± 0.5%
CVR_B - CVR_A = 2.0%

σ(CVR_B - CVR_A) =1.118%

となります。
NORMDIST関数の引数は「値」「平均」「標準偏差」「関数形式」の4つです。
「値」となるのは「0より大きい確率」の基準となる0。「平均」には、2%=0.02が入ります。「標準偏差」=1.118%、「関数形式」は、グラフ下部の面積を求めるためTUREとなります。「NORMDIST関数」で求められるのは、「●以下の面積」のため、「0よりも大きい」を求めるには、1=100%から「●以下の面積」を引きます。

= 1 - NORMDIST(0, 0.02, 0.0118, TRUE)

ここで説明した内容は、統計学の基本的な概念である「分散の加法性」「正規分布の特性」が応用されています。ABテストの結果を正しく比較する際には、こうした知識があるとより正しく評価できるでしょう。データにかかわる仕事では、統計学が重要な役割を持つことが理解できたのではないでしょうか。

ABテストで勝ちを判定する手法「検定」と「有意差」とは?

ABテストでパターンや広告配信の有効性を見極める際に、「検定」という手法を使います。その結果の信頼性は「有意差」により示されます。詳しく見ていきましょう。

ABテストにおける検定とは何か?

統計学では、データに基づいて何らかの仮説を立てることができる場合、その真偽を客観的に判断するために「仮説検定(検定)」を行います。検定の基本的な考え方は、ある事象が起こっている確率を求め、それが優位水準と呼ばれる数値以下であれば偶然ではないと見なされます。

例えば、同じUU数で既存パターンAのCVRが3.4%、施策後パターンBが4.0%の場合、単純に見ればパターンBの効果が高いと思いますが、偶発的でないとはいいきれません。この事象を、合理性を持って証明するのが検定です。検定を行う際には以下の用語を知っておきましょう。

  • 帰無仮説:証明する仮説
  • 対立仮説:帰無仮説の反証となる仮説
  • 有意水準:帰無仮説を棄却するときの判断基準となる数値で慣例的には5%、1%
  • 統計量:データの性質を表す数値

検定を行う手順を見てみましょう。求めたいのは、「パターンBが勝っているのは偶然ではない」という結論です。
この場合、「帰無仮説」は、「パターンAとBにはCVRに差が出ない」、「対立仮説」は「パターンAとBではCVRに影響を与える差がある」となります。

「帰無仮説」の確立が低ければ低いほど、「帰無仮説が誤りである可能性」が極めて高いと判断されて、「対立仮説が立証される」という結論が得られます。ここで気をつけなければならないのは、「対立仮設が棄却」できても「帰無仮説が正しいとはいえない」ということです。

真実に限りなく近い結論を得るためには、テストと検証を重ねていく必要があります。
検定の概念を知らないまま実績値だけで優劣を判断するのは、誤った判断につながる可能性があるため非常に危険であることを、理解しておかなければなりません。

ABテストが「有意ではない」とは

ABテストの結果が、統計的に信頼できるかどうかは「有意差」によって判断されます。「有意差」とは、偶然による誤差の範囲を超え、無限数のサンプルを試したとしても同様の差が出ると確信できる数値のことです。
ABテストは、サンプルによって全体像を見極めるものですが、サンプル数が少なすぎる場合、誤差を正しいCVRと誤って解釈してしまう可能性が高くなります。ここで間違えると、「どちらのパターンを選ぶべきか」という根本がゆらぎかねません。

統計学の考え方として、誤差が偶然得られる確率を計算し、その確率が有意水準を下回れば有意であるとします。「有意差」を結論づけるために重要なのは、「サンプル数」と「結果の差」であるのを理解しておきましょう。

独立性の検定(カイ二乗検定)とは?

単純に差があるかの検定だけを行うための簡易な方法としてはカイ二乗検定という方法もあります。
ABテストで集められたデータの分布が、偶然性の高いものか理論値に近いのかが分かれば、信頼が得られます。それを判断するのが、「カイ二乗検定」です。データの中の各変数に連続性がなく、独立している場合に使われます。

パターンAとパターンBの比較の例を考えてみましょう。パターンBのCVRが高いことを立証したい場合、そのままの仮説では計算ができません。「カイ二乗検定」では、理論的に期待される数値である「期待度数」が必要とされています。そのため、「パターンAとパターンBではCVRの差がない」と仮定して検定を進めます。期待度数に対し、実際に収集などで得られたデータは、「観測度数」と呼ばれます。

パターン
達成
未達成
パターンA
28 ※1
22 ※2
50 ※3
パターンB
35
15
50
63 ※4
37 ※5
100 ※6

上記のような例があった場合、「期待度数」は以下のように計算されます。

  • パターンA達成の期待度数:63×50/100=31.5:※4×※3/※6
  • パターンA未達成の期待度数:37×50/100=18.5:※5×※3/※6

同様にパターンBも計算し、(観測度-期待度)^2/期待度の合計から「カイ二乗値」χ2を算出すると=0.389+0.662+0.389+0.662=2.102。カイ二乗分布表より求める自由度1、「有意水準」5%の値χ2=3.84よりも小さいことから、帰無仮説は棄却されないという結論が得られます。

テスト結果に差がない?有意差の判断基準

ABテストで有意差を正確に判断するためには、押さえるべきポイントがいくつかあります。有意差が判断できないときの対処と併せてみていきましょう。

ABテストは行う時期によってトレンドが異なり結果も変動する

ABテストを実施しても、条件が一致していないと優劣の判断は不正確なものになりかねません。
テストを実施する時期によっても条件は変動します。ユーザーの行動を左右するような話題やブーム、ビジネストレンドなどが要因となり、影響を及ぼす可能性があります。そのため、ABテストは平行して実施しなければなりません。
異なる時期で比較すると、実績値がブレやすいことを理解しておきましょう。

期間を延長しても有意差が現れない場合の対処

ABテストを実施する期間は、一概に「このくらい」とは断定できません。扱うメディアや内容によって、有意なテスト結果が得られる期間が変わります。有意差がなかなか現れない場合、単純に期間を延長し続けても正しい結果が出るとは限りません。明確な有意差を得るためには、細かな変更点ではなく大きなアイデアに目を向けることです。

また、差が出ないという結果を受け入れて次の施策に取り組むといった決断も必要になります。
ささいな違いに気を取られて大きな間違いを起こしては意味がありません。統計学的に正しいと確証できる差を出すためには、ABテストを見直すことも大切です。

LPOツールで「勝ち」を自動で判断する

これまで見てきたような、統計学的な検定や有意差を用いたABテストは正しい判断に有効な方法といえるでしょう。しかし、アナログで計算をして判断を行うのは容易ではありません。統計学の深い知識を必要とし、コストや時間がかかります。そこで、おすすめなのが、LPOツールの導入です。

DLPOのLPOツールならば、LP(ランディングページ)の中から簡単に勝ち効果があるチャンピオンページを判断します。統計的に信頼ができて、明確な有意差での判定を行えます。ABテストは、あくまで効果の高いサイトをつくるための施策に過ぎません。LPOツールを利用することで検証が簡単になり、クリエイティブに専念できるでしょう。

ABテストを複数同時に検証する場合は多変量テストを行う

ABテストは通常2~3パターンの比較となりますが、さらに多くの比較を同時に行うときには「多変量テスト」を実施します。当然ですが、多変量テストの計算は複雑になるため、LPOツールの活用が有効です。多変量テストでは複数の要素について多数バリエーションを準備し、その中から最適な組み合わせを選出します。

また、多変量テストには、大きなメリットが2つあります。1つ目は、CVRに最も貢献している要素を見つけ出せること、2つ目は単一ではなく最適な複数要素の組み合わせがわかり、CVRの改善効果が高いことです。効率的に多変量テストを進めるには、次のような手順で行います。

  • 変更する要素を特定する(テキスト、デザイン、ボタン、イラスト、カラーなど)
  • それぞれ複数のバリエーションを作成
  • 組み合わせを変えたパターンを作成してテストを行う

より細かな情報が得られる多変量テストですが、パターンが多くなる分、判定が複雑になります。DLPOのLPOツールを使うことにより、最適な多変量テストを実施することができます。

まとめ:統計学の知識を学んでテスト結果を正しく判断しよう

今回はABテストの結果を正しく活用するために統計学を用いる方法を紹介してきました。
せっかくABテストを行うわけですから、この機会にぜひ統計学への関心を深めて、正しく判断できるようしましょう。

  • ABテストの結果を正しく判断するには統計学が有効
  • 統計学の「標準偏差」「確率密度」を理解し、比較値には信頼性を求める
  • ABテストの判定を見極めるには「検定」と「有意差」
  • テスト結果で有意差を判断するポイントを押さえる
  • アナログで計算や判断は容易ではなく、効率的に行うためには有料のLPOツールを使うのがおすすめ

DLPO お問合わせ