ABテストではなく、多変量テストを使用すべき場合とは?

2019/10/01 LPOノウハウ ABテスト、多変量テスト

多変量テストとABテストは、それぞれどのように使い分けるべきなのでしょうか。この問題は簡単そうに思えて、実際には複雑です。

多くの場合、ABテストが用いられます。最適化を考える上では、これが最も一般的に用いられるテストだからです。
しかし、時と場合によっては、多変量テストを用いるのが最適である場合もあります。こういった場合、多くの付加価値を期待できます。

両者の微妙な違いに注目する前に、それぞれがどのようなテストであるか、簡単に確認してみましょう。

多変量テストとは

多変量テストとは、簡単に言ってしまえば、ABテストよりもずっと複雑な形式のテストです。

ABテストでは、AとBだけの比較ではなく、比較対象を増やすことでそれぞれのパフォーマンスを測定することもできます（この場合はA/B/nテストなどと呼ばれます）。Dynamic YieldのYaniv Navotによれば、「トラフィック量の多いウェブサイトは、より多くのバリエーションのパフォーマンスを評価し、テスト時間を最大化してより早く結果を得る上で、このテスト方式を用いることができる」とされています。

以下の画像は、A/B/C/Dテストとして、4つのパターンを比較した場合のイメージです。

通常ABテストでは、明らかな違いを持つバリエーションの、少数の組み合わせがテストされます。一方多変量テストでは、僅かな違いである膨大なバリエーションがテストされることになるという違いがあります。SitecoreのLars Nielsonは、以下のように説明しています。

多変量テストは、従来の科学的見地に反証するものであり、ウェブサイトにおけるふたつ以上の要素について、実際の環境で試験するプロセスだ。詰まるところ、複数のA/B/nテストを同じページ上で、同時に行っているものと言うことができる

ABテストが向いている場合

では、多変量テストとABテストのどちらを用いるべきなのでしょうか。

もしもトラフィックが充分なのであれば、両方を用いることができます。それぞれのテストの目的は異なりますが、どちらの目的も重要です。ただ概して言えば、ABテストがデフォルトの手法になるでしょう。

ABテストのメリット：

より劇的なデザイン変更をテストすることができる
通常、多変量テストよりも時間がかからない
上級分析を導入し、それぞれの変数について評価することができる（マウストラッキング情報や携帯電話のトラッキング、分析の統合など）
個々の要素とインタラクションの効果は分けて考えることも可能で、これにより学習理論や顧客理論を構築することができる
より大きな変化の違いを測定することになるため、通常、より多くの情報を得ることができる

通常、ABテストを用いることで、意義のある結果をより迅速に得ることができます。
それぞれのページの違いがより明らかなので、どのバリエーションがより効果的であったのかが分かりやすくなっているのです。

つまりABテストは、（多変量テストでも向いている場合はありますが）色やヘッドラインを少し調整するだけといったような些細な変更ではなく、より大きな変更を加えた場合の違いを知るのに向いていると言えるでしょう。効率化を考える上で多くの場合はABテストが最初に用いられるのは、その方がより多くの情報が得られると見込まれるからです。

Dynamic YieldのオンラインマーケティングディレクターであるYaniv Navotは、多変量テストは主に小規模な調整や変更に用いられるとしており、その上でABテストは複数のページや複数のシナリオを比較するのに向いていると述べています。

Yaniv Navot:多変量テストを用いる場合、影響力が非常に小さいか、あるいは全く無いような小さな要素に注目することとなる。
一方プログラム的かつ動的なABテストを行うことで、それぞれの体験をサイト上の複数のコホートに個別に提供することができる。これは従来の多変量テストでは不可能だった。

では次に、多変量テストを用いる上でのトラフィック量について考えてみましょう。

どれくらいのトラフィックが生まれるか

追加のバリエーションにより、多変量テストには多くのトラフィックが必要となります。あるいは少なくとも、高転換率が必要なのです。

例えば、3x2のテスト（2つの異なるバージョンについて、3つのデザイン要素をテストする、一般的な多変量テストの規模）を行う場合、ABテストなら9つ（3の2乗）のバリエーションから生まれるのと同程度のトラフィックが必要となります。

多変量テストによって要因を分析する場合、トラフィックは全てのバリエーションに対して均等に分散することとなります。これにより、統計的有意性を示す上で必要なだけのトラフィック量も倍加するのです。Optimizelyの統計学者であるLeonid Pekelisが次のように述べているように、この結果としてテスト期間も長くなってしまうのです。

総じて考えると、主に必要となるのは、微妙なインタラクションを多く検知するのに充分なだけの閲覧者数を獲得するために、多変量テストを長期間実施することであると言えます。

Experiment Engineの共同設立者であるClaire Voもまた、多変量テストは余分なトラフィックやリソースが必要であるために実施するのがより難しいと指摘しています。

Claire Vo:多変量テストを実施する上では、技術やデザイン、セットアップ、分析面といった点についてより多くの投資が必要となる。また多変量テストによって完全に要素を分析しようとするならこの試験方法に耐えられるだけのトラフィックがあったとしても、その膨大なトラフィックがいとも簡単に消費されることとなる場合もある。

つまり、時間や人員、リソース、あるいは組織内部のサポートなどといったあらゆるコンバージョンにおける予算について、大きな重荷となってしまうことが考えられる。

一般論で言えば、一ヶ月のユニークトラフィックが10万以下であるなら、多変量テストではなくABテストを用いる方が良いでしょう。
ただ、10〜30%の転換率を誇るようなリード生成ページがある場合はこの限りではありません。

また、あなたの企業がまだ生まれて間も無い新興企業である場合、まだカスタマーデベロップメントの段階にあるということも考えられますが、この段階なら多変量テストを実施するのは早いと言えます。
ベストパフォーマンスのページを実現することはできるかもしれませんが、そこから多くを学ぶことは難しいからです。あまりに多くのことを一度にやり過ぎると、オーディエンスの動向を理解する上での諸々を見逃してしまうということにも繋がります。

多変量テストを使うべき場合

多変量テストを用いることで、個別の要素間におけるインタラクション効果を測定し、どの組み合わせが最も効果的であるかを知ることができます。
Testing Agencyの創設者であるTon Wesselingは、次のように言っています。

Ton Wesseling:多変量テストを使うべき場合とはどういうことかと言われれば、その答えはひとつで、インタラクションの効果について知りたい場合だ。変更が2つ以上加えられているようなABテストは、インタラクション効果を知る上で有効ではない。ABテストで有効だと示された新たなヘッドラインが、ページの異なる場所を指しているヒーローショットのために気付かれないということも考えられる。どの要素が自身のページで本当に影響を及ぼしているのかを知りたいときには、現在用いられている要素を織り交ぜて多変量テストを実行すると良い。

VWOのParas Chopraは、自身は複数の変数を最適化する上で多変量テストを用いるとしていますが、大きな改善を期待しているわけではないとしています。
そうではなく、複数の要素について段階的に改善していくことを目指しているのです。

Paras Chopra:複数の変数について最適化したいときに多変量テストを用いることはあるが、その場合、ABテストに期待するような大幅な改善を期待しているわけではない。例えばデザイン全体をオーバーホールするような場といったような大きな変更については、ABテストを用いるのが良いと思う。そうしてABテストを行った後に多変量テストでフォローアップすることで、ヘッドラインやボタン上のテキストなどを最適化していくことが可能になる。

多変量テストのメリット

多変量テストは、対象を狭めた後にABテストを行い、その結果として有効であると判断されるバリエーションの更なる最適化に用いると効果的です。

多変量テストによって、ABテストでは得られない単一ページ上の変数におけるインタラクションに関する情報を得ることができます。
ページのそれぞれの要素で最も影響力の強い部分を理解することで、再デザインする際に有益な情報を得られるのです。

特にランディングページをデザインする際、これが有効です。デザインの特定の要素の影響について理解できれば、要素のコンテキストが異なる場合であっても今後のキャンペーンに応用することも可能だからです。

Malwarebytesの最適化責任者であるAndrew Andersonは、あるページ上で最も影響力の強いものは何かということ、またそれについて深く調べる点で多変量テストを用いるのが良いとしています。

Andrew Anderson:多変量テストで知りたいのは、例えば『3つのコピー、4つの画像、小さなCTAについての情報』というようなことではなく、『そのコピーと画像、CTAについて、最も重要なのはどの要素』かということであり、そのどれが重要である場合であっても、10のバリエーションについてテストを行い、重要な情報について学ぶことが目的となる。

ABテストでは、影響力について分かることは何もありませんが、適切に行われた多変量テストならばその影響力が見えてきます。
ANOVAにより、数学的影響力、つまりある要素が影響を持つ相対量、他に関連する振る舞いが見えてくるのです。

つまり、多変量テストの最終的な目的は、サイト上のどの要素がサイトの目的を達成する上で最も大きな役割を担っているかということを知るという点にあると言えるでしょう。

ANOVAとは？

ANOVA（分散分析）とは、『群平均間、また関連する手順間における差異を分析するのに用いられる統計学的モデルの集積』のことです。

例えば一単語について2つのサンプルを比較する際、私たちはt検定を用います。しかし、2つより多くの平均を比較する場合には、ANOVAが用いられるのです。

ANOVAについて詳しく知りたい場合は、以下のチュートリアル動画をご参照ください。（英語）

さて、多変量テストには特定の利用目的があるということが分かった今、ならば多変量テストの正しいやり方も存在するはずだと言えるでしょう。多変量テストを効果的に運用するには、どういった状況や条件が必要なのでしょうか。

多変量テストの正しいやり方

多変量テストを行う上で最も重要なのはとにかく大量のトラフィックであるとParas Chopraは述べています。すると、多変量テストを用いる上で正確なデータを得るためには、トラフィックの必要性を理解し、誤検出を防ぐことが重要であると言えるでしょう。

多変量テストを用いる上でのよくある間違い

多変量テストを用いる上でよくある間違いは、多変量テストに固有のものではありません（ABテストにもよく見られるものが多く存在します）が、中には多変量テストの手法だからこそ起こる間違いもあります。

トラフィックが不十分である
誤検出の可能性が高まることを考慮していない
多変量テストを学習ツールとして用いていない
最適化のシステム的アプローチの一部として多変量テストを用いていない

1. トラフィックが充分でない

繰り返しになりますが、トラフィックについて改めて説明しておきましょう。多変量テストには、非常に多くのトラフィックが必要です。一部実施要因計画的手法を用いることで必要なトラフィックを減少させることは可能ですが、この手法については正確さの点で疑問が残る面もあります。

トラフィックが大量に必要となると、テストの実施期間をどれくらい取るべきであるかという点も疑問となってきます。特に、とりあえずやってみて効果的なものと効果的でないものを見分けようというようにして多変量テストを用いる場合には、実施期間も分かりにくいでしょう。

間違いなくするべきことは、統計学的有意性を持つ結果を得るために必要なトラフィックを概算することです（計算方法はこちら）※英語

OptimizelyのLeonidは、一部実施要因計画的手法についても触れながら、多変量テストに必要な大量のトラフィックに対応する方法について次のように述べています。

Leonid Pekelis:多変量テストにおいて必要とされる閲覧者数を軽減するためのアプローチとして、検査するインタラクション数を限定する（例えば双方向のインタラクションだけにする）といった方法もある。ここで役に立つのが、一部実施要因計画などの類いで、完全実施要因計画の代わりに一部実施要因計画を用いることで、必要な閲覧者数を削減することが可能になる。

ただその分、インタラクションの全体像の一部だけに着目することとなる。このとき異なるデザイン手法に着目すると、あっという間に内容が複雑化する。

大量のトラフィックが無い場合に多変量テストを用いる別の方法として、加えた変更によってサイトの効果が損なわれていないことを確認するためだけに完全実施要因計画を実施することから始め、問題が無いことが分かった後にABテスト（あるいは3種類以上のバリエーションのテスト）を用いることで、ベースラインよりもパフォーマンスの良い変更を判断するというやり方もあります。

ConductricsのCEOであるMatt Gershoffは、単純なABテストの関連セットに必要である程度のデータでも多変量テストは実施可能である場合もあるとし、評価処理の数が同じであることと個別のABテストを行う際に明示的に示されるのと同じ独立仮定を鑑みるに、多変量テストはABテストよりも少ないデータで実施できるとしています。

Matt Gershoff:どういった類いのテストを行うかによらず、テストには常に次の2つのステップが存在する。データの収集と、その分析だ。データを多変量的に（つまり完全実施要因で）収集し、インタラクションはない（メインエフェクト）としてデータを分析したり、あるいはインタラクションが存在するとして分析したりすることができる
（このとき、テストの次元数に応じて、インタラクションの度合いを選択することもできる）。

したがって、ゼロを含む自由に選択したインタラクションの程度によって分析することができることから、完全実施要因計画を用いてデータを収集することは優れたやり方であると言えます。
少なくともデジタル環境におけるその唯一のコストは、テストの組み合わせを全て保持するためにデータベースにより多くの仕切りが必要であるということです。
一部実施要因計画によってデータを収集すると、その分析は用いた一部実施要因計画の本質に基づいて制限されることになります。

ただ、テストのインタラクションに懸念があって多変量テストにより試験されるメインエフェクトの利用に躊躇する多くの人は、個別のABテストを用いる方が良いとするでしょう。
しかしこの場合でも、暗にインタラクションの効果が無いことを前提としていることに変わりはなく、その際にはより多くのデータが必要となるのです。

2. 誤検出の可能性が高まることを考慮していない

Leonidによれば、多変量テストを行う上で最もよくある間違いが誤検出の可能性が高まることを考慮しない点にあると言います。

Leonid Pekelis:それぞれのインタラクションについては、個別にABテストを行うことになる。測定するべきインタラクションが20あり、テスト手順によってそれぞれについて5%の誤検出が起こるとすれば、1つのインタラクションが完全に偶然に有意なものと検出されることもある。

こうした問題に対応するための方法として、複合テスト補正と呼ばれる手法を執ることもできます。しかし、信頼できる結果を得るためにはより多くの閲覧数が必要になる傾向にあることは間違いありません。

複数の比較問題については、以下の記事もご参照ください。※英語

3. 多変量テストを学習ツールとして用いていない

繰り返しになりますが、最適化する上では決定のために必要な情報を収集することが肝要です。
その上では、多変量テストは学習ツールとして用いるのが良いでしょう。多変量テストを段階的に変化を加えて効果のあるものを知るというようなやり方に用いるのは非効率的であり、ABテストと比べても膨大な時間が掛かることとなります。これについてAndrew Andersonは次のように言っています。

Andrew Anderson:結論に至るまでの時間が短ければ短いほど、それだけROIも大きくなる。より早く動けば、それだけ次の価値に素早く到達することもできるし、プログラムから得られる結果を増やすこともできる。

より重要なのは、多変量テストを学習ツールとして”のみ”用いることに集中することで、最も価値のある、あるいは影響力の強いファクターについて実用性のある選択肢について多くのリソースをテストするためのツールとして用いて、同レベルの影響力を持たない要素についてかける無駄なリソースを排除することだ。

その目的は、最終的な成果を得ることにあるのであって、より小さく簡単なステップに取りかかるのではなく時間の掛かる大きなステップに囚われ続けてしまうというのは、完全な失敗である。

4. 最適化のシステム的アプローチの一部として多変量テストを用いていない

多変量テストを活用する上での失敗として、『自分が何を行おうとしているのか、あるいは何をしているのか』ということを分からないまま多変量テストを利用しようとしているという状況もあります。あるいは、テスト計画が全く無いという場合もあるでしょう。Paras Chopraは次のように言います。

Paras Chopra:もっとも大きな過ちは、MVTに何を期待しているのかを自覚していないというパターンだ。変更の組み合わせでベストなものを知りたいのか、それともどの要素（ヘッドラインやボタンなど）が最も影響力を強く持っているのかを知りたいのかなどを意識しなければいけない。

Andrew Andersonは、上手くいくかどうかとりあえず試すためであったり、仮設を検証するためだけにABテストあるいは多変量テストを用いるということであれば、その結果としては個人的な満足を得られるに過ぎないとしています。また彼は、「将来的な取り組みのために、結果やリソース配分を最大化するためにツールを適切に用いることで、組織的にも全体的にも最大化を計ることができる」と述べています。

さて、これまでで、多変量テストについて異なる統計学的手法について触れてきましたが、ここで一度、それぞれについて整理しておきましょう。

完全実施要因と一部実施要因

多変量テストにはいくつかの手法があります。

完全実施要因
一部実施要因
タグチメソッド

これらの手法については、それぞれの有意性について激しい議論となる場合もあります。

完全実施要因多変量テスト

完全実施要因実験とは、「そのデザインが2つ以上の要因によって成り立ち、それぞれに離散可能値または『レベル』が存在する上で、その実験ユニットがそのような要因全域においてこれらのレベルのあらゆる組み合わせをとる」実験を指します。

言い換えれば、完全実施要因計画の多変量テストは、均等なトラフィック量について全ての組み合わせを試験するということであり、以下のような特徴があります。

より統計的に完全である。
大量のトラフィックが必要である。

Paras Chopraは、数年前、Smashing Magazineの中で次のように述べています。

”仮に16の組み合わせがあるとすれば、それぞれが、そのウェブサイトのトラフィックの1/16を担うこととなる。それぞれの組み合わせは同量のトラフィックを得るため、この手法により、どの組み合わせやセクションが最も良いパフォーマンスを出しているかを知る上で必要なあらゆるデータを得ることができる

ある画像が転換率に全く影響を及ぼしていないということが分かるかもしれないし、ヘッドラインが最も影響力を持っていることが明らかになるかもしれない。

完全実施要因デザインの手法は、試験による統計や数学に関していかなる仮設も持たないため、多変量テストに向いていると私は考える

一部実施要因多変量テスト

一部実施要因実験とは、「完全実施要因デザインの実験実施から厳選されたサブセット（一部）から成る実験デザイン」です。

つまり、一部実施要因実験では、有効な組み合わせを示すことでサンプルセットを試験するものであり、したがってトラフィックも少なくて済みます。

Adobeのブログ記事では一部実施要因計画を気圧計に喩え、「気圧計は気圧を計測するが、その値からは『気圧の方向が変化した』というようなことは分からない」としています。
記事では、次のように言葉が続いています。

分析から湯水のように溢れるデータのために1つのテストに5ヶ月を費やすことに価値があるかどうかは疑問だ。そこから学びが得られたとしても、テストの終了時には無用の長物となっているかもしれないのだから。それよりも、数週間程度で完了する一部実施要因多変量テストを行い、そこから最適解を得てその学びを活かし、新たに得られたベースラインに新たなテストを行う方が良いのではないか

タグチメソッド多変量テスト

この検定方法はやや難解なので、気にする必要はありません。ParasもSmashing Magazineの中でこのコメントを残しています。

ヒューリスティックの類いであり、理論的に正しいと思われるような手法ではない。もともとは、製造業界で、QAなどの実験により試験が必要である組み合わせ数を削減するためにある種の仮説を立てるのに用いられていたもので、これらの仮説はオンラインでのテストには応用できるものではないため、タグチ検定については何もする必要がない。他の手法に目を向けるべきである

重要なこと

これまでで述べられたように、一部実施要因手法の分かりにくい統計が問題の主な焦点となります。
私がこれまでに会った最適化担当者の大半は、完全実施要因計画以外は推奨しないと口にしてきました。
Parasは、「多くの”一部実施要因”手法は疑似科学であり、この多変量テストの手法が適切に説明され、正当性が明らかにならない限り、私は完全実施要因計画だけを用いる」としています。

しかしAndrew Andersonのように、こうした論調はミスリードであるとする向きもあります。

Andrew Anderson:一部実施要因と完全実施要因とどちらが優れているかという議論は無意味であり、それは森の中にあって一枚の葉であるにはどれくらいの濃淡の緑であるべきかというような議論をしているようなものだ
。
多変量テストは、影響力や将来的なリソースをどこに集中させるべきかといったことを知るために用いるべきである。こういったことを調べる場合、多変量テストは最適な手法となり、残る問題はデータを得られるかどうかという点だけだ。

それ以外のケースで多変量テストを用いようというのは要点を理解しておらず、ただ最適化というものの本質や理解に己が不十分であることを吐露しているに過ぎない。

つまり重要なのは、もしも充分なトラフィックがあるなら、完全実施要因を用いれば間違いも起こりにくいであろうということ、しかし時間に追われている中で決定を下す必要がある場合には、どれだけ正確な結果が出ようとも数ヶ月もかかる完全実施要因試験は向いていないとも言えるということです。

結論

充分なトラフィックがある場合、両方の検定を用いると良いでしょう。それぞれの手法は最適化を目指す上で異なる効果を持つため、組み合わせて用いることで、それだけ多くのことを知る機会になるはずです。
やり方としては次の通りです。

ベストなレイアウトを知るため、ABテストを行う
そのレイアウトに更に磨きをかけるため、多変量テストを行い、それぞれの要素が互いに可能な限り最高の影響を互いに持っていることを確認する

ただ、多変量テストを行う上では大量のトラフィックが必要になるということには留意してください。

価値提案の強調、ページレイアウト（画像とコピーのバランスなど）、コピーの長さ、全体の目線の流れなどをABテストで試験する場合、2〜4回程度のテストが必要となるでしょう。これにより全体像が見えてきたら、いよいよインタラクションの効果を知るための多変量テストの出番です。

重要なのは、自身のプライオリティがテストプログラムと一致しているということです。Peepも、「私が会った多くの最高の業績の代理店は、多変量テストを一度行う度に10回もABテストを行っている」としています。

この記事は、CXLのブログに掲載された「When To Do Multivariate Tests Instead of A/B/n Tests」を翻訳したものです。

ライター紹介
ConversionXL

CXLは米国Austinを拠点とするLPOのコンサルティング会社。
また、CXLは「CXL Institute」というLPOやWEB解析に特化した、マーケター向けの教育プログラムの運営も行っています。
欧米のデジタルマーケティング業界ではCXLの創設者Peep Lajaの知名度は非常に高く、Peep Lajaは最も影響力の高いLPOスペシャリストとまで言われています。
CXLのブログは定期的にLPO関連の非常に参考となるブログ記事を配信しています。

https://conversionxl.com/