誤解を招く A/B テストは簡単です

Rostyslav Mykhajliw TrueSocialMetrics.com の創設者 ~ 2 分

クラシック

従来の A/B テストは、異なる状態間の分布です。誰もが使用する一般的なサンプルから始めましょう。サインアップ ボタンのあるサイトがあり、現在は青ですが、新しい色の赤をテストしたいと考えています。

A/B testing

次に、いくつかのトラフィックをそこに割り当て、いくつかを待機します。 statistical significance の簡単な計算機があります。

オプション A: 5 万人の訪問者 - 500 人のサインアップ オプション B: 5 万人の訪問者 - 570 のサインアップ - 勝者

Bが勝者でクリアです。より多くのサインアップ、統計的有意性。

新しい古典的なリンゴからオレンジへ

ちょっと待ってください!私たちが何か新しいものをリリースしているもの。たとえば、製品の段階的なガイドを概観するためのボタン「デモ」を追加しています。 A/B testing a new feature

A/B テストの単純なロジックに従っていると、うまくいきません。リンゴとオレンジを比較することはできないからです。何かと比較することはできません!それは完全に間違っています。デモボタンがない場合、ユーザーはこのオプションを持っている人よりも悪い体験をする可能性があります.ただし、このオプションは、すでに製品に興味を持っているか、最近製品を使用することをすでに表明しているユーザーにのみ役立つ場合があります。何百万ものトラフィックがあっても、結果が遅れる可能性があるため、数時間/数日でどのように機能するかを説明することはできません.

新しい機能については、経腸リリース プロセスとして線形にリリースする必要があります。それからしばらくしてから、それを見て、それが顧客体験に何らかの影響を与えたかどうかを判断し、ビジネス指標を追跡します. A/B テストは新しい機能には適用されません。

AA/BB テストの信頼性

サインアップ ボタンで最初のサンプルに戻ります。私たちの推測が正しければ、A オプションと B オプションをさらに追加しても、B は依然として戦闘に勝つことができるため、何も変更することはできません。

AA/BB testing

次に、結果を見てください。

A1: 5 万人の訪問者 - 500 人のサインアップ A2: 5 万人の訪問者 - 580 のサインアップ - 勝者 B1: 5 万人の訪問者 - 570 人のサインアップ - 勝者 B2: 5 万人の訪問者 - 500 人のサインアップ

何!何!何!ありえないと言えますが、この状況は、訪問者の割り当てがテスト結果に影響を与える場合に違いを示します。この結果は安定した 95% の統計的有意性を示していますが、信頼性は低いです。

適応テスト

記事の冒頭に戻ると、意味のある結果を得るには 50,000 人の訪問者と 500 回の遷移が必要な巨大なトラフィックに気付くでしょう。ただし、すべてのページにこの可能性があるわけではありません。すべてのスタートアップがそのようなトラフィックを生成するのに十分であるとは限りません。または、設定/請求などのトラフィックの少ないページである可能性があります。これらすべてのケースで、従来の a/b テストではデータを収集するのに膨大な時間がかかります。とか、ぐらい。一般的なアプローチの次の欠点は、少なくとも 50,000 人の訪問者 (テストに割り当てられた 100,000 人から) が顧客体験を悪化させたことです。そのため、「失う」テストへの割り当てにより、長い間待機し、顧客を失っています。意味がありますか?ヘルスケアの医師は症例の問題を横断しましたが、テーブルでは人々の命がありました。ウィッチ中にテストを行うと、50% の忍耐力が「テストされていない」ために死にます。そして、それはめちゃくちゃです。適応テストのアイデアを思いついた Marvin Zelen は、現在 Zelen’s design と呼ばれています。

要するに

赤玉と青玉の 2 つの可能性があるとします。統計的には 50% の確率です。

Adaptive test initial state

たとえば、訪問者をランダムに「青」に割り当てます。「青」は購入があったため、より良いエクスペリエンスです。この場合、「青」が勝っているため、追加の「青」ボールをプールに追加します。

Adaptive test added blue ball

結果確率が「赤」 - 33%、「青」 - 67% に変更されました。

いいですね!しかし、「青」の次の訪問者は何もしません。 「青」が負けているので、プールから「青」のボールを 1 つ取り除く必要があり、以前の状態が得られます。

Adaptive test final state

プラス: + 少量のトラフィックで機能します + ユーザーにより良いケアを適応的に提供 マイナス: - 開発者は、テストの過程でテストの勝敗を判断する必要があります

脳震盪

  • 従来の A/B テストは、新しい機能に対しては機能しません。なぜなら、何もテストできないからです
  • 一般的に、A/B テストは、分析結果が代表的であると述べていても、代表的ではありません。
  • AA/BB アプローチは、A/B テスト結果の確認に役立ちます
  • アダプティブ テストはトラフィックが少ない場合に非常に便利ですが、目標を設定するには手作業が必要です


ソーシャルメディア分析を揺るがす準備ができたら

TrueSocialMetricsを試してみてください!


トライアルを開始
クレジットカードは必要ありません。






読み続けて




2012 年のベスト Facebook キャンペーンの分析
トップ パフォーマーからベスト プラクティスを学ぶのは常に興味深いことです。しかし、最高のソーシャル メディア キャンペーンの公式結果の背後で何が起こっているのかを知ることは、さらに興味深いことです。活動が成功した後、何が起こったのですか?フォロワーを引き付けるためにどのようなクリエイティブなテクニックが使用されましたか? Facebook Studio 2013 アワード受賞者のベスト 3 Facebook キャンペーンを分析してみましょう。そして気になるものを発見。


Google アナリティクスのマルチデバイス トラッキングおよび測定プロトコル
今日、マーケティングと分析は、PC 時代の後、新たな課題に直面しています。マルチデバイストラッキングです。顧客はスマートフォン、ラップトップ、自宅の PC を使用しており、当社の分析ソフトウェアはそれらを異なるユーザー セッションとしてカウントします。


今すぐすばらしいコンテンツの作成を開始するための 10 のヒント
あなたの個人的なミューズが素晴らしいコンテンツを作るのを常に待つ必要があると思いますか?しかし、この女性が数日間来ない場合はどうなりますか?この苦しみを取り除き、今すぐ素晴らしいものを作り始めるためのヒントをいくつか紹介します!


Static Files as a Database
For a long time, we have been living in a world where we use default approaches without fully thinking about their purpose. Take WordPress as an example: it's a powerful application, but it requires MySQL as its database, and to make it fast, you often need Memcache to cache MySQL queries and reduce database load. Alongside, there's the WYSIWYG editor, which, in theory, allows users to edit HTML easily, but in practice often generates unreadable, bloated code.