The LPO Blog
OGP

この記事は、CXLのブログに掲載された「Predicting Winning A/B Tests Using Repeatable Patterns」を翻訳したものです。


繰り返しパターンに見るA/Bテストの予測

A/Bテストを行い、信頼できる有効な結果を得るためには、何度もテストを繰り返さなければなりません。 テストを行う中では、実験を行って失敗したり、有意性のある結果を得られないままに終わったりすること もあります。既にある知識を総動員して、より多くの成功を実現し、 そして失敗を少なくすることができるようになるのが理想的です。

2017年、私たちは、似たようなテスト結果をパターン化して体系的にカテゴリー分けし、 より有効なテストを行うために役立てることを考えました。2017年には純粋なパターン によるA/Bテストが51回実施され、そうしたテストの71%が停止時点でポジティブな 結果を示していました。どうやら、パターンを用いるというのはテスト結果を予測する上 で強力なツールらしいと分かってきたところで、そのアプローチをここで共有したいと思います。 より有効なテストを行うためにパターンをどのように用いるか、どのように特定するかを見ていきましょう。

目的:五分五分のランダム性を改善する

A/Bテストの結果予測率を改善するために最初にするべきことは、「予測の成功」とはどういうものかということ について定義や基準を持つことです。シンプルに考えれば、それは陽性か陰性かという結果のテストについて、 予測通りの結果が出るかどうかであると言えそうです。つまり、予測が成功するということは、 「ある選択肢がもう片方に”勝つ”」と予測した上で、「その選択肢が何かポジティブな結果に繋がる」 ことであり、逆に「その選択肢が何かネガティブな結果に繋がる」ようであれば、その予測は失敗 していると考えられるのです。




また、完全にランダムな実験をしていると、通常およそ半分の結果はポジティブな、もう半分はネガティブな 結果になることが予想されます。そこで、「2つのパターンを比べたとき、どちらがより有効と 示されるかについて、五分五分よりも良い予測ができるようにする」と言うこともできるでしょう。

パターン:予測のための主な要素

私は、コンバージョンのパターン(バリエーション)を、『簡単に再現できるUIの変更で、 それにより予測を行ったり、効果を即座に反復できるもの』と定義しています。 こうしたパターンを見つけることで、例えば見出しが弱い、入力項目が多すぎる、 写真に現実味がない、選択肢がプルダウン式になっていて隠されているため可視性が低い などのポイントを戦術的に特定し、それらが持つであろう効果を最大限活用するために すぐに対応することができるのです。そうしたパターンにおける予測強度の根幹にあるのは、 ある変更が似たような効果を持てば持つほど、将来的にもそれは似たような効果を生み出す 可能性が高いと考えられるという仮説です。つまり、パターンを用いて予測を行う上で重要なのは、 複数回のテストとその結果であり、その数は多ければ多いほど良いということになります。 こうした予測を可能とするパターンの要素としては、次のようなものがあります。

・変更:パターンを成す、ひとつあるいはそれ以上の性質のまとまりで、繰り返しが可能な程度に抽象的であるもの。 一般に、UIからの何かの除去、何かの入れ替え、または新しいものの追加がある。変更は、A(変更前、または対照群) とB(変更後、またはバリエーション)のように、2つのスクリーンショットの比較により示されることが多い。

・テスト結果:それぞれのパターンは、その予測強度をテスト結果から得ることができ、これは数が多ければ 多いほど良い。それからテストにより、再現性とMedian Effect(中央値)という、重要な2つの測定基準を得ることができる。

・再現性の精度(繰り返しの精度、反復精度):そのパターンが、「ポジティブな結果においてどれだけ頻繁に試験されているか」 から「ネガティブなテスト結果の回数」を引いたものから成る基準。ポジティブである場合もネガティブである場合も、この値が高ければ高いほど、 そのパターンが将来的な実験において繰り返しポジティブ・ネガティブな結果となる可能性が高いと考えられる。テストデータが 一切無いパターンについては、このスコアはゼロとなる。

・Median Effect(中央値):将来的なテストにおいて類似の変更を行った場合に何が期待されるかが分かる。 これは、パターンに関連する、それぞれのテストの最も強い影響から計算される (例えばサインアップ、リード、販売数といった、最も意義の強い基準など)。 特定のパターンについてテストを行えば行うほど、それだけMedian Effectもより正確になる。

以下は、No Coupon Fieldのパターンのサンプルです。以下のような要素を合わせて考えることとなります。



テクニカルノート:テスト結果を異なる信用度で相殺するため、非常に有意なテスト結果 (p値が0.03未満)には再現性の精度として1ポイントを、有意性がある可能性がある結果 (p値が0.25未満)には0.5ポイント、有意性のない結果(p値が0.25以上)であるか、 サンプルサイズデータが完全でないテスト結果には0.25ポイントを付与している。

良いパターン、悪いパターン、より良いパターン

パターンがテスト結果を集積していくと、中間点(ゼロ点)からずれていくようになります。 こうした、よりポジティブなパフォーマンスを発揮するパターンは、再現性のスコアが (また有効なものとして選ばれる確率が高まると共に)増していくこととなります。 有効かどうか分からないパターンの場合、ゼロに近い状態のままになり、成功の蓋然性が 低いことを示すこととなります。また、ネガティブな結果になりやすいパターンについては、 再現性スコアがマイナスになり、そのアイデアが良いものではないことを示唆することとなります。

つまり、『より良いパターン』とは、再現性スコアが正の値で高く、かつ高いMedian Effectを持つものであると言えるでしょう。

新たなパターンの生成

パターンのアイデアは至るところで見られます。しかし、パターンのアイデアの根源がどこにあるかということよりも 重要なのは、新たなパターンが、再現性スコアをゼロとして作られることです。テスト結果から、 予測できるようなパターンを発見し、それをネガティブまたはポジティブなものとして扱えることが重要なのです。 これらを踏まえて、新たなパターンを見つけるためのいくつかの方法を見てみましょう。

・想像やペンと紙の作業:優れたパターンのアイデアを生む上で、経験を活かしてクリエイティブさを 発揮することは重要と考えられます。時に、ペンと紙を手にとってアイデアをラフに起こしてみるという のも良いでしょう。完璧なアイデアでなくても構いません。手探りのものであったとしても、 テストを繰り返す中でそのポテンシャルが見えてくることもあるのです。

・自身のA/Bテストから:A/Bテストを完了したら、変化をパターンとして捉えてみると良いでしょう。 どういった効果があったか、その信頼度がどうだったかに関わらず、それぞれのA/Bテストには、 将来的に繰り返される可能性を秘めた価値のあるデータが含まれているのです。ここから新たな パターンを見つけたり、過去のパターンと比較したりすることを試してみましょう。

・他者のA/Bテストから:企業が一般公開しているテスト結果を利用することもできます。 もちろん、良い結果を悪い結果よりも強調するのではないかというバイアスもあって、第三者のテスト 結果を鵜呑みにすることはできないかもしれません。また、公表された結果に詳細なサンプルサイズや コンバージョンデータが含まれていない場合もあり、そのクオリティを把握することがより困難という こともあります。私たちの場合、こういったケースには再現性スコアとして低い点数(0.25)をつけています。

・顧客リサーチ:実際の顧客やユーザーが自身にとって必要なものを説明している質的なリサーチは、 新たなパターンアイデアを生む上でのインスピレーションとなりえるものです。例えば調査、 ユーザビリティ研究、インタビュー、画面録画などの手法が考えられます。

・最適化されているサイトのコピー:常に実験をしながら能動的に最適化を繰り返しているような ウェブサイトは常に注目に値するものです。そうしたサイトに変更が加えられた場合、 何らかの実験によってそれが有効と判断されたに違いありません。 そうした変更は、将来的にも成功に繋がりやすいものであると考えられます。

パターンを用いてウェブサイトを最適化する

ステップ1:機会を見つける

パターンを用いて一連の画面を最適化しようとするとき、私たちの焦点は、可能な限り多くの改善箇所を特定することにあります。 そのためには、改善を施すことのできる画面やメトリクスを定義する必要があります。同時に、全ての既存のパターンを踏まえて、 共通の様々な変化について考えるのです。たとえばページのタイプ(会計画面のパターンなど) やメトリクス(リード生成パターン)といったページタイプによって特定のパターンタイプに 注目することもあります。プロセスをどの順番で始めるかということは問題ではありません。 問題なのは、目の前に見える形で画面や目標とするメトリクス、パターンを見ることであり、 それによってできるだけ多くの最適化の機会を捉えられるようにすることなのです。

私たちの場合、普段はAdobe Illustrator(その他、注釈を入れられるソフトウェアなら何でも可) を用いて、関連するスクリーンショットをリストアップしたり、アイデアなどを注釈という形で追加したりしています。



まだパターンがないアイデアについては、(データ参照なしで)それを捉えるようにします。

ステップ2:再現性の精度とMedian Effectにより順位付けを行う

充分なアイデア(通常10〜100程度)をリストアップできたら、それらを比較し、 どのパターンが成功率が高そうであるか、そして最も影響力がありそうかを見ます。 このとき、パターンに基づいたそれぞれのデータについて、その再現性の精度やMedian Effectを 確認し、それをアイデアに合わせて記入します。これにより、実際のデータを用いて予測を 行うことができ、以下のように優先順位をまとめることができます。



場合によっては、それぞれのアイデアについて主観的な信頼度を付与する場合もあります。 この場合、信頼度は-3(そのアイデアがネガティブなものであるという確信が強い) から+3(そのアイデアがポジティブなものであるという確信が強い)の範囲に限定します。 複数のチームメンバーから主観的な信頼度が表された場合、これらの値を平均化し、 集団的知性として活用します。

ステップ3:テストデザインとバリエーション設定

アイデアについて優先度を決定し、最もポテンシャルが高いと思われるものが分かってきたところで、 より詳細なコンセプトを策定します。パターンを見てAとBを比較すれば終わりということはなく、 それ以外のパターンとも比較しなければなりません。そこで、過去のテストを確認し、 より具体的な例を見ることで、あるパターンが成功している例や失敗している例を確認します。

発案の全てが実際にテストされるわけではありませんが、選択肢は多い方が良いものです。 いくつかのバリエーションを含むソリッドなテストコンセプトとして、 テストの対象となる特定の変化を持つようなものが最終的なビジュアルとなります。



注:テストを行うか、それともこの段階で直接導入してしまうかを選ぶこともできます。 主観的なものであれ、あるいはテストによる充分なだけのポジティブな結果であれ、 十全の信頼度があるなら、テストを行わず、直接変更をローンチするのも良いでしょう。 リスクのある方法ではありますが、そのようにして知識を活用するというのも有効な最適化の 方法なのです。ただこれは、統計的感度やサイトのトラフィック、 予測されるインパクト、信頼度の程度などに応じて決定されなければなりません。

ステップ4:フィードバックのループとデータの矯正

パターンに基づいてテストを行う場合において最後の要素は、結果に応じてパターンをアップデート することです。より厳密に言えば、再現性スコアをアップデートし、Median Effectの 変更も同様にアップデートするということになります。

これは、エフェクトおよび有意性の精度から独立したあらゆるテスト結果について行います。 どういった結果であれ、テストを行う上で技術的に設定段階で問題が起こり、 それにより実験の正当性が失われている場合を除いて、どんな結果からでも何か を学ぶということは重要です。こうしたフィードバックの仕組みにより、 新たなテスト結果が出るに合わせて将来的な予測をより正確なものとし、 より優れたパターンを選り分けていくことが可能となるのです。

51のA/Bテスト予測から分かる信頼できる結果

では、以上の様なアプローチが実際のプロジェクトにおいてどのように役立つのでしょうか。 パターンが何らかの予測力を有するかどうかを評価するために、2017年、私たちは、複数の最適化 プロジェクトにおいて独自の予測を追跡し始めました。そのような厳密なパターンによる A/Bテストを51回行い、それを追跡したことで、以下のようなことが判明しました。

ポジティブな結果となると予測された(つまり再現性スコアがプラスであった) 51の実験のうち、36は停止時においてポジティブな結果となりました。 こうしたパターンの予測率は71%であるということになります。このようにしてパターン を用いることで、ランダムに五分五分のテストを行うよりもずっと有利にテストを 行っていくことが可能となると言えます。このことから、最小の労力でより多くの A/Bテストを成功させる上で、パターンを用いることは一般に非常に効果的なものである と考えることができるでしょう。これは、最も影響力の強い結果を最小の労力で実現 しようと考える(つまり最大のROIを得るという)、クライアントの期待にも合致するものです。



あるパターンを有効なものと示す証拠が多ければ多いほど、それだけ予測率も高まること が傾向として明らかです。今回の場合、予測率は、再現性の精度に対して直線的に増加しています。 こうした結果から、コンバージョンのパターンの測定・特定を継続することが有効 であると考えることができました。また、コンバージョンのパターンが一般化できる (様々なウェブサイトで有効である)ことも、心強い発見であると言えます。

これらの発見から、再現性スコアに別の意味合いが見えてくることとなりました。 より多くのデータが集まり、予測の正確性を評価しながら将来的に手を加えることは 依然として可能ですが、現状では次のように考えることができます。



・再現性スコアが0:ポジティブな結果になるかもしれないし、そうでないかもしれない
・再現性スコアが0以上1未満:ポジティブな結果となる可能性がある
・再現性スコアが1以上3未満:おそらくはポジティブな結果となる
・再現性スコアが3以上5未満:ポジティブな結果となる可能性が非常に高い
・再現性スコアが5以上:ほぼ確実にポジティブな結果となる

最後に

単一のA/Bテストだけを分析するのには限界があります。そうではなく、複数の実験に目を向けるようにしましょう。 上記で解説したようにパターンを用いるのは、こうした飛躍を可能とする多くの方法のうちのひとつであると言えます。 以上の経験を踏まえ、私たちにとって、パターンは複数の過去のテストを思い出させてくれる強力なツールであり、 より正確な予測を行う上で欠かせないものとなりました。昨年の71%の成功は始まりに過ぎません。より多くの実験を行い、 それを次に活かすことで、仕事もどんどん簡単になっていくでしょう。過去の実験から将来的な可能性を引き出すことで、 ゆくゆくはより有効かつ影響力の強いテストを行うことができるようになるはずです。

もちろん、あるサイトで奏功したものが別のサイトでも有効であるとは限りません。しかし、 様々なサイトで有効であるとされているものは、他のサイトでも有効である可能性がより高い と考えられます。これを利用しない手はないのです。

この記事は、CXLのブログに掲載された「Predicting Winning A/B Tests Using Repeatable Patterns」を翻訳したものです。

ライター紹介
  • ライター紹介
    ConversionXL

CXLは米国Austinを拠点とするLPOのコンサルティング会社。
また、CXLは「CXL Institute」というLPOやWEB解析に特化した、マーケター向けの教育プログラムの運営も行っています。
欧米のデジタルマーケティング業界ではCXLの創設者Peep Lajaの知名度は非常に高く、Peep Lajaは最も影響力の高いLPOスペシャリストとまで言われています。
CXLのブログは定期的にLPO関連の非常に参考となるブログ記事を配信しています。

https://conversionxl.com/

Please Like ♥

LIKE