最終更新日: 2025年02月17日 ABテストの有意差検定とは?統計学に基づき正しく判断をする方法を解説

ABテストにおける有意差とは、AパターンとBパターンの間に統計的に意味のある差があることを示します。これは、テスト結果が偶然ではなく、一方のパターンが他方よりも実際に効果的であることを確認するために重要です。一般的に、有意水準は5%(p値が0.05以下)を用いて判断します。

コンバージョン(CV)を高めるためには、複数のパターンを比較し、最も効果的なものを選ぶ必要があります。しかし、ABテストを実施しても「正しく検証できているのか」「適切な検証期間はどれくらいか」といった疑問が生じることがあります。結果を正確に解析できなければ、期待通りのコンバージョン率(CVR)向上や検索順位の改善が得られないこともあります。これを「統計学的に有意ではない」と呼びます。

この記事では、ABテストの結果を正しく判断し、サイトを効果的に改善するための統計学の知識や重要なポイントについて解説します。

DLPOの製品資料や料金表などが必要でしたらお気軽にお申し付けください。

ABテストの有意差とは?

ABテストの「有意差」とは、ABテストの結果に統計的に信頼できる差があることを示す言葉です。偶然による誤差の範囲を超えていて、無限数のサンプルを試したとしても同様の差が出ると確信できる数値であることを意味します。

では、そもそもABテストとは何かをあらためて振り返りながら、有意差の意味への理解を深めていきましょう。

そもそもABテストとは?

ABテストとは、ランディングページや広告のパフォーマンスを高めるために、仮説をもとに作成した改善パターンを表示して、ユーザーの反応をテストする手法です。AパターンとBパターンのパフォーマンスを比較するケースが多いことからABテストと呼ばれますが、3パターン以上を同時にテストすることもあります。

改善パターンの優劣は、商品やサービスの申し込み数、問い合わせ数、広告バナーのクリック数といった目的を達成した割合を示した「コンバージョン率(CVR)」をもとに判断するのが一般的です。

CVRは、サイト訪問数に対する成約の割合を示すものですが、CV数をどの数字で割るのかがとても重要になります。CVRを求める計算式は、以下の2つです。

CVR = CV数/PV(ページビュー)

CVR = CV数/UU(ユニークユーザー)

PVは、閲覧回数を表しているので、たとえ訪れているのが一人のユーザーであっても閲覧するごとにカウントされてしまい、集計された分母が大きくなります。多くの商品やサービスでは、CVに至るまでに、複数回閲覧しながら検討をするのが一般的です。一人のユーザーが、訪問するごとにCVの可能性がある特殊な場合を除き、CVRの計算にはUUを使ったほうがより正確な判断につながります。

ABテストは目的によってさまざまなやり方が採用されますが、なかでも次の4種類が代表的です。

  • ABテスト(同一URLテスト)
  • 複数URLテスト
  • スプリットURLテスト(リダイレクトテスト)
  • 多変量テスト

ABテストについて詳しくは、以下の記事で解説しています。

関連記事:【ABテストとは?】ABテストのメリットと効果的な実施方法、事例を解説 - DLPO株式会社

有意差とは?

ABテストにおける「有意差」は、テスト結果の数値が偶発的なものでなく、統計学の知見から意味のある差であることを表す言葉です。テスト結果に有意差が認められることを「統計的に有意」と言います。

統計学とは、大量にあるデータの全体像を捉えるため、少量のサンプルを抜き出してそこから得られたものをもとに、母集団の性質について推測を行うという学問です。たとえば国政選挙で投票期間が終了した瞬間に、テレビ局や新聞社などが出口調査のデータをもとに当選確実な候補者を発表しているのも、統計学の手法が使われています。ほかにも、アンケートでのグループ比較や、新薬の実験データの検証などで使われていることもよく知られていますが、応用範囲は多岐にわたります。

ABテストは、WEBページや広告などの効果を、一定の期間中に得られたデータをもとに比較するテストです。どのテストパターンが有効か過誤なく正しく判断するために、また広告費用に見合う成果を得るために、ABテストでは統計学の観点が求められます。

ABテストの結果には誤差が生じる

前述の通り、各テストパターンのCVRやUUをもとに優劣が決められるものの、データから計算されるCVRには誤差が生じます。というのも、同じCVRの数値でも、分母の大きさが異なると信ぴょう性が変わってきます。なぜなら、CVRが同じ10%でも、UU数が100と10万ではまったく捉え方が異なるからです。

また、CVRの数値自体を読み解くのにも、注意しなければなりません。CVRが10%と90%であれば、90%の成果率が高いことはすぐに分かります。では、CVRが50%の場合はどう考えればよいのでしょうか。50%とは、可能性が半々ということなので、CVRが50%に近づくほど、不確かさが大きくなっていきます。反対にUUは、小さいほど不確かさが増します。

このようにCVRには誤差があるため、ABテストの結果を正確に判断するために、有意差が重視されます。

ABテストで勝ちを判定する手法「検定」と「有意差」とは?

ABテストでパターンや広告配信の有効性を見極める際に、「検定」という手法を使い、結果の信頼性は「有意差」により示されます。ABテストの有意差について理解を深めるために、統計学の知識を交えながら解説します。

ABテストにおける検定とは何か?

統計学では、データに基づいて何らかの仮説を立てることができる場合、その真偽を客観的に判断するために「仮説検定(検定)」を行います。検定の基本的な考え方は、ある事象が起こっている確率を求め、それが優位水準と呼ばれる数値以下であれば偶然ではないと見なされます。

例えば、同じUU数(ユニークユーザー数)で既存パターンAのCVRが3.4%、施策後パターンBが4.0%の場合、単純に見ればパターンBの効果が高いと思いますが、偶発的でないとはいいきれません。この事象を、合理性を持って証明するのが検定です。

検定を行う際には以下の用語を知っておきましょう。

  • 帰無仮説:証明する仮説
  • 対立仮説:帰無仮説の反証となる仮説
  • 有意水準:帰無仮説を棄却するときの判断基準となる数値で慣例的には5%、1%
  • 統計量:データの性質を表す数値

検定を行う手順を見てみましょう。求めたいのは、「パターンBが勝っているのは偶然ではない」という結論です。

この場合、「帰無仮説」は、「パターンAとBにはCVRに差が出ない」、「対立仮説」は「パターンAとBではCVRに影響を与える差がある」となります。

「帰無仮説」の確立が低ければ低いほど、「帰無仮説が誤りである可能性」が極めて高いと判断されて、「対立仮説が立証される」という結論が得られます。ここで気をつけなければならないのは、「対立仮設が棄却」できても「帰無仮説が正しいとはいえない」ということです。

真実に限りなく近い結論を得るためには、テストと検証を重ねていく必要があります。

検定の概念を知らないまま実績値だけで優劣を判断するのは、誤った判断につながる可能性があるため非常に危険であることを、理解しておかなければなりません。

ABテストが「有意差がある」「有意ではない」とは

ABテストの結果が統計的に信頼できるかどうかは、「有意差」によって判断されます。「有意差」とは前述の通り、偶然による誤差の範囲を超え、無限数のサンプルを試したとしても同様の差が出ると確信できる数値のことです。

ABテストは、テスト対象の広告やWebページを見たユーザーの行動をサンプルとして数値化し、全体像を見極めます。しかしABテストの結果を判断する基準であるCVRやUUには誤差が生じる可能性があります。サンプル数が不十分な場合、誤差を正しいCVRと誤って解釈してしまう可能性が高くなるため要注意です。ここで間違えると、「どちらのパターンをチャンピオンページとして選ぶべきか」という根本がゆらぎかねません。

統計学の考え方として、誤差が偶然得られる確率を計算し、その確率が有意水準を下回れば有意であるとします。有意水準は5%(0.05)や1%(0.01)といった数値がよく用いられています。有意水準を5%と設定した場合には、5%以下の確率で生じる減少は非常にまれにしか起こらないため、誤差として処理されるということです。

ABテストで「有意差」を結論づけるために重要な要素は、「サンプル数」と「結果の差」です。実際のABテストを例に、この2つの要素がどう影響するか考えてみましょう。

たとえばCTAボタンの色を青から赤に変えることで、CVRがアップするという仮説を立てたとします。ABテストを実施した結果、CTAボタンが青のパターンはCVRが3.75%なのに対し、CTAボタンが赤のパターンはCVRが4.83%でした。いくつかのサンプルに分けて抽出してみると、CVRにおける上振れ・下振れはCTAボタン青のパターンが±0.32%、CTAボタン赤のパターンが±0.39%という結果です。誤差の振れ幅が1%未満のため、このABテストは有意差があると判断できます。

独立性の検定(カイ二乗検定)とは?

単純に差があるかの検定だけを行うための簡易な方法としては、有意差以外にも「カイ二乗検定」という方法もあります。

ABテストで集められたデータの分布が、偶然性の高いものか理論値に近いのかが分かれば、信頼が得られます。それを判断するのが、「カイ二乗検定」です。データの中の各変数に連続性がなく、独立している場合に使われます。

パターンAとパターンBの比較の例を考えてみましょう。パターンBのCVRが高いことを立証したい場合、そのままの仮説では計算ができません。「カイ二乗検定」では、理論的に期待される数値である「期待度数」が必要とされています。そのため、「パターンAとパターンBではCVRの差がない」と仮定して検定を進めます。期待度数に対し、実際に収集などで得られたデータは、「観測度数」と呼ばれます。

パターン 達成 未達成
パターンA 28 ※1 22 ※2 50 ※3
パターンB 35 15 50
63 ※4 37 ※5 100 ※6

上記のような例があった場合、「期待度数」は以下のように計算されます。

  • パターンA達成の期待度数:63×50/100=31.5:※4×※3/※6
  • パターンA未達成の期待度数:37×50/100=18.5:※5×※3/※6

同様にパターンBも計算し、(観測度-期待度)^2/期待度の合計から「カイ二乗値」χ2を算出すると=0.389+0.662+0.389+0.662=2.102。カイ二乗分布表より求める自由度1、「有意水準」5%の値χ2=3.84よりも小さいことから、帰無仮説は棄却されないという結論が得られます。

ABテストの有意差を統計学的に正しく判定する方法

ABテストの有意差判定の具体的な方法について、さらに深堀りしていきましょう。

ABテストでは、CVRをはじめとするデータの実績値をそのまま受け止め、「見かけ」だけで判断してしまうと誤った判断になりかねません。検証結果を見誤ると、サイトに影響を与えてしまう可能性があります。単純に各パターンの成約件数を比較しても、正しい検証をしたことにはなりません。

有意差の判定方法には、「標準偏差」からデータの不確かさを求める方法と、「確率密度」をもとにCVRの正確さから求める方法がありますので、それぞれ詳しく解説します。

不確かさを「標準偏差」で検定する

ABテストでも、データの実績値をそのまま受け止め、「見かけ」だけで判断してしまうと誤った判断になりかねません。

検証結果を見誤ると、サイトに影響を与えてしまう可能性があります。単純に各パターンの成約件数を比較しても、正しい検証をしたことにはなりません。

標準偏差とは?標準的な中心からのズレ

そのため、統計学ではこのバラつきを表現する代表値として、「標準偏差」を使用します。「標準偏差」の「偏差」とは、中心からのズレを意味しているため、「標準偏差」は、「標準的な中心からのズレ」を表しているのです。例えば、CVRが10%、その標準偏差が2%の場合には、「標準的に10%から2%程度ズレの可能性ある」という解釈になります。必ずしも2%のズレが発生するわけではないけれど、起こる可能性はあるといえるでしょう。

区間推定とは?ズレがどのくらいの確率で収まるのか推定

そのズレはどのくらいの確率で範囲内に収まるのでしょうか?それを推定するのが、「区間推定」です。
統計学上の「不確かさ」を持つCVRのバラつきの範囲が、どこまでの数値に収まるのかを確率で表します。

先の例で見た、CVR10%・標準偏差2%のときでは、±2%の範囲(8~12%)に収まる確率は68%とされます。これを2倍に広げた±4.0%の範囲(6~14%)では、95%になります。

区間推定とは、このように母数(CVRの真の値)をある程度の幅を持たせて推定する方法で、この区間は「信頼区間」と呼ばれます。

「不確かさ」という概念は、分かったようでも理解が難しいものです。統計学の考え方は、CVRの値を正しく解釈できるようになります。成果に直結するサイトを構築するうえで、こうしたベースとなる知識は非常に重要になります。

CVRの正確さを「確率密度」で検定する

ABテストから得られたCVRの値が、どのくらい正確なものかを知るための方法として、「確率密度」があります。

CVRの確率密度の求め方

確率密度を使うことにより、どの幅に本当のCVRがどの確率で収まるかを推定できます。ただし、CVRの確率密度を数式だけで求めようとすると、かなり複雑になるため、グラフの形で考えると理解がしやすくなります。

CVR実測値のグラフを作成すると、10%で最も高い山型となり左右同型に低くなっていきます。「±標準偏差」の間に収まる確率は68%、「±2×標準偏差」に収まる確率は95%、「±3×標準偏差」」に収まる確率は99%です。

これを見ると、確率と該当する数値面積が一致しているのが分かります。Excelでは、「NORMDIST関数」を使って、グラフから面積を計算することが可能です。ただし、求められるのは「〇〇以下」の解となるため、「NORMDIST関数」を使ってそれぞれの面積を算出した後、該当する面積を求めましょう。

正規分布について

このような左右対称のグラフの形を、正規分布(normal distribution)と呼びます。その名称通り、自然界や人間社会のあらゆるデータでよく見られる現象です。特徴としては、平均値・最頻値・中央値が一致しており、そこを中心に左右対称に分布が広がります。正規分布の形状は、標準偏差によって決まり、標準偏差が大きいほどグラフは扁平になり、小さいほど狭く高くなる傾向です。

確率密度の概念を正しく理解することで、得られたCVRの数値を本当に信じられる根拠ができます。データの表面に惑わされず正しく数値の意味を読み解ければ、LPO(ランディングページ最適化)の信頼性を高めていけるでしょう。

実際に2つのクリエイティブを比較する

2つの項目を比較して意味があるのには、前提条件として比較値の信頼性が求められます。
不確かな情報同士を比較しても、さらに不確かな情報しか得ることしかできません。

怪しい情報同士を比較するともっと怪しくなる

例えば、ある地域での朝食で食べられるパンとご飯の割合を比較する場合で考えてみましょう。

パンを3日以上食べている家庭がプラスマイナス10件で100件、ご飯を3日以上食べている家庭がプラスマイナス5件で60件という調査結果があります。

パンを食べているのは±10件なので90~110件、ご飯は±5件なので55~65件です。パン世帯が多いのは分かりますが、その差は最大2倍、最低約1.4倍と割合を調べるという目的にかなっていません。

CVRの比較も同様で、怪しい要素を持つ情報同士を掛け合わせても、正しい結論からは遠くなっていきます。

2つのクリエイティブを比較する事例

では、具体的に、2つのクリエイティブを比較してみましょう。

パターンAとパターンBのCVRをそれぞれ「CVR_A」「CVR_B」 とします。パターンBのCVR値が大きかった場合の差は、「CVR_B - CVR_A」で示されます。さらに、両パターンの差の標準偏差「σ(CVR_B - CVR_A)」を求めましょう。

「CVR_B - CVR_A」の確率密度は、正規分布の形状を取りますが、実際にパターンBのほうが優位であることはどうすれば立証できるのでしょうか。それには、「CVR_B - CVR_A」の値が0より大きい確率を求めます。

σ(CVR_B - CVR_A)= √(CVR_A^2 + CVR_B^2)

CVRの差の標準偏差は上のように計算でき、これは分散の加法性という統計学の基本的な概念です。二つの値の和や差の不確かさは、個別の値の不確かさの合計よりも小さくなります。これは片方が下振れしているときに、もう片方が上振れし、不確かさが相殺される場合があるためです。
先に出てきた「NORMDIST関数」を使っていきましょう。

上記の例では

CVR_A = 8.0% ± 1.0%
CVR_B = 10.0% ± 0.5%
CVR_B - CVR_A = 2.0%

σ(CVR_B - CVR_A) =1.118%

となります。
NORMDIST関数の引数は「値」「平均」「標準偏差」「関数形式」の4つです。
「値」となるのは「0より大きい確率」の基準となる0。「平均」には、2%=0.02が入ります。「標準偏差」=1.118%、「関数形式」は、グラフ下部の面積を求めるためTUREとなります。「NORMDIST関数」で求められるのは、「●以下の面積」のため、「0よりも大きい」を求めるには、1=100%から「●以下の面積」を引きます。

= 1 - NORMDIST(0, 0.02, 0.0118, TRUE)

ここで説明した内容は、統計学の基本的な概念である「分散の加法性」「正規分布の特性」が応用されています。ABテストの結果を正しく比較する際には、こうした知識があるとより正しく評価できるでしょう。データにかかわる仕事では、統計学が重要な役割を持つことが理解できたのではないでしょうか。

ABテストで有意差をきちんと出すポイント

有意差が判定しやすいABテストを実施するには、どんな点に気をつけてテスト設定を行ったらいいのでしょうか。ポイントを3つ紹介します。

変数を1つに絞る

ABテストのテストパターンは、「CTAボタンの色」「キャッチコピーの表現」など、1つのクリエイティブのみに手を加えることで、有意差がはっきり出やすくなります。複数の変更要素を含んだテストパターンを作成した場合には、複雑なデータを分析する必要があり、何が要因で出た数値なのかの判断がつきにくくなるためです。

なお、テストパターンにおける変数を1つのみに絞ったものを「ABテスト(同一URLテスト)」、複数の変数を含んだものを「多変量テスト」と呼び分けます。どの種類を選ぶかは目的や仮説の内容にもよるものの、とくにABテスト初心者にとっては変数を絞ったテストを採用することで、テストパターンの有意差が判定しやすくなるでしょう。

テスト期間を適切に設定する

ABテストの実施期間が短かったり、時期が適切でなかったりする場合は、平均的な結果が生まれにくくなります。曜日や時間帯、季節などが異なるとUUやユーザー属性などに影響を及ぼすため、テスト期間は2週間ほど設けるのが一般的です。

なお、ABテストにはテストパターンを別々の期間に表示する「逐次テスト」というやり方もありますが、実施期間を分けると誤差が生じやすくなるため、有意差を判定しにくくなります。ABテストツールを活用して、同じ期間にテストパターンを振り分け表示する「並行テスト」を採用するようにしましょう。

サンプルデータを十分集める

サンプル数が不足していると、有意差を適切に判定できないため、PV数に応じて必要なサンプル数を十分集められるような期間を設定することも重要です。有意差判定に必要なCV数は、1パターンあたり30以上が目安となっています。Google Analytics(GA4)などで1日あたりの平均CV数を確認したうえで、必要なサンプル数を集められる見込みのある期間を設定しましょう。ABテストツールによっては、テスト実施期間を延長したり、振り分け設定を変更したりと、柔軟な対応が可能なケースもあります。反対に期間終了前に有意差を自動で判定し、予定より早くテストを完了することもできます。

有意差を出すにはABテストツールが便利

統計学的な検定や有意差判定は、ABテストを正しく判断するために有効な方法といえるでしょう。しかし、自分で計算をして判断するには、統計学の専門知識が必要なうえ、コストも時間がかかります。

そこでおすすめなのが、ABテストツールです。ABテストツールを活用すると、テストパターンの中から簡単に勝ち効果があるチャンピオンページを自動で判断できます。統計的に信頼ができて、明確な有意差での判定を行えるため、効率よくABテストを実施可能です。

ここではABテストツールを比較検討する際の着眼点を紹介します。

目的にあった機能がついているか

ABテストツールの基本機能には、以下のようなものがあります。

  • 対応できるABテストの種類
    ABテストにはテストパターンの変数によって、同一URLテスト、多変量テスト、複数ページテスト、リダイレクトテストなどの種類があります。対応テスト種が多いツールであれば、幅広く活用可能です。
  • テストパターンの作成機能
    ABテストツールでは、ノーコードでテストパターンを作成可能なビジュアルエディタが備わっているのが一般的です。操作感があうかどうかは利用する人のスキルによって変わってきますので、デモ画面を試したり、無料トライアルを申し込んだりと実際に触って確認するのがおすすめです。
  • セグメント化機能
    ユーザー属性や行動履歴などのセグメント別に、テストパターンを表示できる機能です。特定のセグメントのみにABテストを実施できるため、WEBサイトのパーソナライズに役立ちます。
  • 配信割合変更機能
    テストパターンの配信割合を、テスト開始後に進捗状況を見ながら変更できる機能です。必要なサンプル数が集まる見込みがない場合は配信割合を増やすことで、予定通りの期間でテストを完了できるようになります。
  • 有意差判定機能
    ABテストの結果が統計的に有意かを、自動で判定する機能です。有意差判定に用いる項目はツールによって変わってきますので、比較検討時に確認してみてください。
  • レポート作成
    ABテストの結果をレポートとして出力できる機能です。数値を視覚的にわかりやすく表現していたり、根拠が記載されていたりすると、結果の分析に役立ちます。

関連記事:ABテストツール徹底比較12選|導入メリットや選び方、活用事例も紹介

費用が妥当か

費用面もABテストツールを選ぶ上で重要な着眼点です。2023年にサービス終了した「Google Optimize」のように無料で利用できるツールもありますが、PV数、セッション数、UU数などに制限がある場合が多いため、コストパフォーマンスのバランスを見て判断しましょう。

手厚いサポート体制があるか

電話やメールでの問い合わせに対応しているツールであれば、トラブルがあったときもすぐに解決できます。海外製ツールでは日本語のサポートに対応していない場合もあるので、国産ツールを選ぶのがおすすめです。また、導入に向けたロードマップなど、検討段階で担当者から活用イメージが湧きやすい提案をしてもらえるかどうかも重視するといいでしょう。

おすすめのABテストツール

有意差判定を効率的に行えるABテストツール7選を紹介します。ABテストツールの代表格だった「Google Optimize」はすでにサービス終了しているため、今回紹介したツールを参考にしながら、どれが自社に適しているか比較検討してみてください。

DLPO

DLPOは850社以上で導入され、累計約75,000件ものABテストを実施してきた国産のLPO(ランディングページ最適化)ツールです。ランディングページだけでなく、オウンドサイト、ECサイト、ネイティブアプリなど、静的ページにも動的ページにも実装できます。

DLPOが対応しているテストは、リダイレクトABテストを含むABテストと多変量テスト、複数ページテストです。設定できるセグメントが細かいため、多様な目的に沿ったABテストを実施できます。テスト実施期間中に進捗状況をチェックして設定を柔軟に変更できるうえ、ツール上でテスト結果の有意差判定も可能です。

テストパターンを作成できるエディタは、テキストや画像の変更を直感的な操作で行えます。また、自由度の高いコードエディターも利用でき、動的ページやネイティブアプリ画面上でもABテストの実装が可能です。Webサイト分析ツール(GA4、AdobeAnalyticsなど)、ヒートマップツール(Microsoft Clarity、コンテントスクエアなど)、DMP・CDP(IntimateMerger,、TreasureDataなど)との連携も可能なので、結果を多角的に分析できます。

問い合わせには電話とメールで対応していて、仮説の設計やレポーティングなどを支援するコンサルティングサービスも提供しているなど、ツールを使いこなして成果を出せるようサポートする体制が整っています。

Ptengine

Ptengineは、ABテストを中心に、ランディングページ(LP)の効果を最大化するためのオールインワンLPOツールです。20万社以上の導入実績を持ち、ABテスト、リダイレクトテスト、ヒートマップ解析、ページ編集などの機能が一つに集約されているため、LPをはじめとするWEBサイト改善を効率的に実施可能です。

ABテストやリダイレクトテストのパターンをノーコードで迅速に作成できるため、プログラミングやデザインの専門知識も不要です。また、ヒートマップ解析では、どの部分がクリックされているのかを視覚的に把握できるため、ABテストに取り入れたい改善点を素早く見つけられます。

さらに、AIスマート配信機能により、テスト結果に基づいて最適なパターンを自動で選定し、効率的に最適化を進められます。時間をかけずに効果的な施策を見つけ、WEBサイトの改善を加速できるのが魅力です。

Ptengineでは、マーケティング初心者も使いやすいFreeプランが用意されているのも特徴です。ヒートマップ解析を1ページのみ無料で利用でき、ABテストを気軽に試せます。さらに幅広い機能を活用したい場合は、有料プランにアップグレードすることで、より多くのテストやサポートを受けられます。

SiTest

SiTestは、世界中で100万以上のサイトに導入されているABテストツールです。ABテストや多変量テストをはじめ、ヒートマップ解析、パーソナライズ機能もワンストップで利用できます。

SiTestの特徴は、フォーム最適化に役立つ機能が豊富に備わっていることです。ユーザーが誤入力した際のエラーメッセージの自動表示や、フォームの入力進捗(開始率、中断率、完了率)がデータ化され、ユーザーの離脱ポイントを視覚的に把握し、改善策を効果的に導き出せます。さらに、有料オプションを活用すれば、BtoB向け企業データベースを利用したフォーム最適化や、ステップ型フォーム作成も可能です。

SiTestは無料プランでも使用でき、最大3,000PVまで計測できます。フォーム改善を目的としたABテストを簡単に試すことができ、導入実績が豊富で高い評価を受けています。また、導入前にはデモ体験が提供され、導入後のサポートも無料で受けられるため、初めての方でも安心して利用可能です。

VWO(Visual Website Optimizer)

VWOは、ABテストを中心に効果的なデータドリブン施策を実施するためのツールです。カスタマイズ可能なウィジェットや、特定のユーザーグループをターゲットにしたセグメント機能、詳細なデータを提供するスマートレポート機能など、効率的にABテストを進めるための強力な機能を提供しています。対応テスト種はABテスト、多変量テスト、スプリットテストです。

VWOの大きな強みは、テスト結果を迅速かつ正確に分析できる点です。統計エンジンを活用することで、結果が統計的に有意になる前でも、早期に意思決定を下せます。また、レポートはユーザーのセグメントごとに細かくカスタマイズ可能で、多角的にデータを分析できます。ユーザー行動や反応のパターンをより深く理解し、テスト結果の精度を高めるのに効果的なツールです。

さらに、ノーコードでテストパターンの作成や変更を行えるため、プログラミングの知識がなくても直感的な操作で問題なく使用できます。くわえて、1つの変更を複数ページに適用できる機能や、ユーザーの興味を引き購買意欲を高めるウィジェットを簡単に追加できるWEB接客機能も完備しています。これにより、マーケティング施策をよりダイレクトに最適化できることが魅力です。

VWOはGoogle Analyticsとも連携可能で、テクニカルサポートも提供されています。海外製ツールのため、初めて使用する際には若干の学習コストがかかることがありますが、国内には専任のコンサルタントがサポートしており、導入から運用まで安心して進めることができます。

ABTasty

ABTastyは、ABテスト、スプリットテスト、複数ページテスト、多変量テストに対応した海外製のABテストツールで、世界中で900以上のブランドに導入されています。

ABTasty の特徴は、AIを活用した機能が豊富に備わっていることです。AIによりトラフィック配分やチャンピオンページの判定を自動で行えるため、テストやパーソナライズをスムーズに進めることができます。ユーザーの行動に基づいて、ターゲットごとに最適なメッセージを表示することで、ただ一度の訪問にとどまらず、長期間にわたってユーザーとの関係を深める「ナーチャリング」施策が効率的に進められます。このように、AIを駆使した戦略的アプローチが可能で、ROI(投資利益率)の分析機能も備わっているため、テスト結果をデータに基づいて正確な評価が可能です。

ノーコードで操作できるエディタも備わっていて、ポップアップやバナーの表示、さらに自動スクロール機能を使った柔軟なテストパターンを作成可能です。特にECサイト向けの豊富なウィジェットが揃っているため、オンラインショップ運営者におすすめのツールとなっています。

ただし、ABTastyは海外製のため、日本語でのサポート範囲が限られていて、コンサルティングサービスも提供されていません。そのため、ツールを活用するためには、ある程度のマーケティングやテストに関する知識が求められます。とはいえ、その分、効率的にABテストやパーソナライゼーションを実施したい企業には、非常に強力なツールとなるでしょう。

Optimize Next

Optimize Nextは、Google Optimizeの代替として開発された無料のサードパーティーツールです。Google Optimizeと同様に完全無料で利用でき、特にABテストを中心に活用したいユーザーに適しています。Optimize Nextの運営会社はこれまでに25,000件以上のABテストを支援してきた実績を持つコンサルティング企業で、実際に自社でGoogle Optimizeをフル活用してきた経験をもとに、ユーザー目線で開発されました。

Googleアカウントを使って簡単に登録でき、対応しているテストの種類は、ABテストや複数ページテスト、多変量テスト、リダイレクトテストの4種類と、Google Optimizeとほぼ同様の機能を提供しています。ただし、ノーコードでできる作業には制限があります。たとえば色変更にはCSSの編集が必要で、レスポンシブページの画像の変更にはMHLチェックが必要です。有料ツールと比較してやや手間がかかるものの、HTMLやCSSの知識がある方であれば効果的に活用できるでしょう。

Optimize Nextはテスト回数や機能に制限がなく、無料で無制限にテストを実施可能です。基本的なABテストやサイト改善のためにツールを導入する企業の場合、非常にコストパフォーマンスに優れた選択肢だといえます。

ミエルカヒートマップ

ミエルカヒートマップは、WEBサイトのユーザー行動を「見える化」することで、改善点を直感的に把握できる初心者にも使いやすいABテストツールです。特に、訪問者がどこでページを離れたかを把握できる「スクロールヒートマップ」、どの部分がクリックされたかを視覚化する「クリックヒートマップ」、そしてページ内で注目されている部分を示す「アテンションヒートマップ」の3つの基本機能が強みとなっていて、WEBページの改善点を迅速に特定できます。

また、ポップアップ機能やABテスト機能を活用すれば、UX改善とCV数アップを並行して進められます。さらに、ツールの使い方に不安がある方でも安心できるよう、無料サポートや導入前のレクチャーが提供されているなど、初心者にも親切なサポート体制が整っています。

くわえて、競合サイトの広告内容を調査する機能や、ページ変更前後の状態を比較できる自動キャプチャ機能も搭載しています。改善施策を実施した後の効果を簡単に確認できるため、迅速に効果的なアクションを取ることが可能です。月間3,000PVまで無料で利用できるプランもあるため、手軽に導入できることも魅力です。

ABテストツール導入による有意差判定の改善事例

ABテストの有意差判定方法について課題を感じていた会社の改善事例を、3つ紹介します。

ブックオフコーポレーション

2019年に既存のLPOツールをリプレイスする形で、DLPOを導入しました。以前のツールはテスト回数や使いやすさの面で課題を感じていたため、同時にまわせるテストの数や運用効率が優れているDLPOを選んだそうです。DLPOのABテスト結果では改善率にくわえて、改善信頼度という項目が設けられているため、有意差をより正確に確認できるようになりました。ABテストの振り分けもテスト対象やテスト箇所ごとに細かく設定できるため、スピーディーにサイト改善が進んだ結果、CVが前年比で128%もアップしたそうです。

関連記事:カートのコンバージョンが前年比128%アップ!〜ブックオフコーポレーションのABテスト事例〜

鎌倉新書

鎌倉新書は、終活にまつわるサービス事業者とユーザーをマッチングするWEBサイトを複数運営する会社です。以前はGoogle Optimizeを活用し、数と質の両方にこだわりながらABテストを継続して実施していました。しかしGoogle Optimizeを利用していた時期は、統計的に有意差があるかどうかを担当者が自分で計算をして、結果を判定していました。エクセルで計算式を入れたものを作ったり、オンラインツールを利用したりしていましたため、効率面での課題を感じていたそうです。

Google Optimizeのサービス終了にともないDLPOへとリプレイスした後は、「改善信頼度」として有意差が自動でレポートされるため、有意差判定の負担が大幅に軽減しました。また、導入前にデモ画面を使用しながら機能改善要望を25項目ほど提出した結果、ツール開発に取り入れられたり、解決方法を提案してもらえたりしたことも好印象だったそうです。

関連記事:機能改善やレポーティング、充実したサポートが魅力〜株式会社鎌倉新書のABテスト事例〜

auフィナンシャルサービス

auフィナンシャルサービスでは「au PAY カード」のLPOを目的にDLPOを新規で導入し、多変量テストを継続して実施しています。複雑な多変量テストは、レポートの項目が細かくてもどこを注視すべきか分からず、項目が少なくても統計の専門知識がないため正確に判断できません。DLPOのレポートはグラフ化されていて視覚的に結果を捉えられるうえ、統計的に有意かどうかも自動で判定してもらえるため、会社としてどう判断すべきかがわかることが魅力だそうです。上席者へ報告するためのレポートを作成する際も、DLPOのレポートで要点が十分まとまっているため、作業しやすいこともポイントだといいます。

関連記事:ボタン、メインビジュアル、利用イメージの多変量解析でCVR119%改善!〜auフィナンシャルサービスのABテスト事例〜

まとめ

今回はABテストの有意差検定について解説しました。ABテストの結果を意味のあるものとして正しく判断するには、統計学の知識が必要です。統計学の「標準偏差」「確率密度」を理解し、ABテストの結果では比較値に信頼性を求めるようにしましょう。

ただし、アナログな計算方法では有意差の判断が難しい場合も多々あります。効率的に行うためには、「DLPO」のような有料のABテストツールを使うのがおすすめです。ABテストでLPや広告のパフォーマンスを高めるためにも、より正確に有意差を検定する方法を取り入れていきましょう。

DLPOの製品資料や料金表などが必要でしたらお気軽にお申し付けください。