誤解を招く A/B テストは簡単です

Rostyslav Mykhajliw TrueSocialMetrics.com の創設者 ~ 2 分

クラシック

従来の A/B テストは、異なる状態間の分布です。誰もが使用する一般的なサンプルから始めましょう。サインアップボタンのあるサイトがあり、現在は青ですが、新しい色の赤をテストしたいと考えています。

次に、いくつかのトラフィックをそこに割り当て、いくつかを待機します。 statistical significance の簡単な計算機があります。

オプション A: 5 万人の訪問者 - 500 人のサインアップオプション B: 5 万人の訪問者 - 570 のサインアップ - 勝者

Bが勝者でクリアです。より多くのサインアップ、統計的有意性。

新しい古典的なリンゴからオレンジへ

ちょっと待ってください！私たちが何か新しいものをリリースしているもの。たとえば、製品の段階的なガイドを概観するためのボタン「デモ」を追加しています。

A/B テストの単純なロジックに従っていると、うまくいきません。リンゴとオレンジを比較することはできないからです。何かと比較することはできません！それは完全に間違っています。デモボタンがない場合、ユーザーはこのオプションを持っている人よりも悪い体験をする可能性があります.ただし、このオプションは、すでに製品に興味を持っているか、最近製品を使用することをすでに表明しているユーザーにのみ役立つ場合があります。何百万ものトラフィックがあっても、結果が遅れる可能性があるため、数時間/数日でどのように機能するかを説明することはできません.

新しい機能については、経腸リリースプロセスとして線形にリリースする必要があります。それからしばらくしてから、それを見て、それが顧客体験に何らかの影響を与えたかどうかを判断し、ビジネス指標を追跡します. A/B テストは新しい機能には適用されません。

AA/BB テストの信頼性

サインアップボタンで最初のサンプルに戻ります。私たちの推測が正しければ、A オプションと B オプションをさらに追加しても、B は依然として戦闘に勝つことができるため、何も変更することはできません。

次に、結果を見てください。

A1: 5 万人の訪問者 - 500 人のサインアップ A2: 5 万人の訪問者 - 580 のサインアップ - 勝者 B1: 5 万人の訪問者 - 570 人のサインアップ - 勝者 B2: 5 万人の訪問者 - 500 人のサインアップ

何！何！何！ありえないと言えますが、この状況は、訪問者の割り当てがテスト結果に影響を与える場合に違いを示します。この結果は安定した 95% の統計的有意性を示していますが、信頼性は低いです。

適応テスト

記事の冒頭に戻ると、意味のある結果を得るには 50,000 人の訪問者と 500 回の遷移が必要な巨大なトラフィックに気付くでしょう。ただし、すべてのページにこの可能性があるわけではありません。すべてのスタートアップがそのようなトラフィックを生成するのに十分であるとは限りません。または、設定/請求などのトラフィックの少ないページである可能性があります。これらすべてのケースで、従来の a/b テストではデータを収集するのに膨大な時間がかかります。とか、ぐらい。一般的なアプローチの次の欠点は、少なくとも 50,000 人の訪問者 (テストに割り当てられた 100,000 人から) が顧客体験を悪化させたことです。そのため、「失う」テストへの割り当てにより、長い間待機し、顧客を失っています。意味がありますか？ヘルスケアの医師は症例の問題を横断しましたが、テーブルでは人々の命がありました。ウィッチ中にテストを行うと、50% の忍耐力が「テストされていない」ために死にます。そして、それはめちゃくちゃです。適応テストのアイデアを思いついた Marvin Zelen は、現在 Zelen’s design と呼ばれています。

要するに

赤玉と青玉の 2 つの可能性があるとします。統計的には 50% の確率です。

たとえば、訪問者をランダムに「青」に割り当てます。「青」は購入があったため、より良いエクスペリエンスです。この場合、「青」が勝っているため、追加の「青」ボールをプールに追加します。

結果確率が「赤」 - 33%、「青」 - 67% に変更されました。

いいですね！しかし、「青」の次の訪問者は何もしません。「青」が負けているので、プールから「青」のボールを 1 つ取り除く必要があり、以前の状態が得られます。

プラス: + 少量のトラフィックで機能します + ユーザーにより良いケアを適応的に提供マイナス: - 開発者は、テストの過程でテストの勝敗を判断する必要があります

脳震盪

従来の A/B テストは、新しい機能に対しては機能しません。なぜなら、何もテストできないからです
一般的に、A/B テストは、分析結果が代表的であると述べていても、代表的ではありません。
AA/BB アプローチは、A/B テスト結果の確認に役立ちます
アダプティブテストはトラフィックが少ない場合に非常に便利ですが、目標を設定するには手作業が必要です

ソーシャルメディア分析を揺るがす準備ができたら

TrueSocialMetricsを試してみてください！

トライアルを開始
クレジットカードは必要ありません。

誤解を招く A/B テストは簡単です

クラシック

新しい古典的なリンゴからオレンジへ

AA/BB テストの信頼性

適応テスト

要するに

脳震盪

ソーシャルメディア分析を揺るがす準備ができたら

TrueSocialMetricsを試してみてください！

読み続けて

ロックインランディングページ - どこにも行かない

Google プラスコミュニティ分析: ソーシャルメディアコミュニティ

Google アナリティクスのマルチデバイストラッキングおよび測定プロトコル

Twitter での Oreo の成功: ツイート分析のためのコンテンツセグメンテーションの使用

誤解を招く A/B テストは簡単です

クラシック

新しい古典的なリンゴからオレンジへ

AA/BB テストの信頼性

適応テスト

要するに

脳震盪

ソーシャルメディア分析を揺るがす準備ができたらTrueSocialMetricsを試してみてください！

読み続けて

ロックインランディングページ - どこにも行かない

Google プラス コミュニティ分析: ソーシャル メディア コミュニティ

Google アナリティクスのマルチデバイス トラッキングおよび測定プロトコル

Twitter での Oreo の成功: ツイート分析のためのコンテンツ セグメンテーションの使用

ソーシャルメディア分析を揺るがす準備ができたら

TrueSocialMetricsを試してみてください！

Google プラスコミュニティ分析: ソーシャルメディアコミュニティ

Google アナリティクスのマルチデバイストラッキングおよび測定プロトコル

Twitter での Oreo の成功: ツイート分析のためのコンテンツセグメンテーションの使用