誤解を招く A/B テストは簡単です

Rostyslav Mykhajliw TrueSocialMetrics.com の創設者 ~ 2 分

クラシック

従来の A/B テストは、異なる状態間の分布です。誰もが使用する一般的なサンプルから始めましょう。サインアップ ボタンのあるサイトがあり、現在は青ですが、新しい色の赤をテストしたいと考えています。

A/B testing

次に、いくつかのトラフィックをそこに割り当て、いくつかを待機します。 statistical significance の簡単な計算機があります。

オプション A: 5 万人の訪問者 - 500 人のサインアップ オプション B: 5 万人の訪問者 - 570 のサインアップ - 勝者

Bが勝者でクリアです。より多くのサインアップ、統計的有意性。

新しい古典的なリンゴからオレンジへ

ちょっと待ってください!私たちが何か新しいものをリリースしているもの。たとえば、製品の段階的なガイドを概観するためのボタン「デモ」を追加しています。 A/B testing a new feature

A/B テストの単純なロジックに従っていると、うまくいきません。リンゴとオレンジを比較することはできないからです。何かと比較することはできません!それは完全に間違っています。デモボタンがない場合、ユーザーはこのオプションを持っている人よりも悪い体験をする可能性があります.ただし、このオプションは、すでに製品に興味を持っているか、最近製品を使用することをすでに表明しているユーザーにのみ役立つ場合があります。何百万ものトラフィックがあっても、結果が遅れる可能性があるため、数時間/数日でどのように機能するかを説明することはできません.

新しい機能については、経腸リリース プロセスとして線形にリリースする必要があります。それからしばらくしてから、それを見て、それが顧客体験に何らかの影響を与えたかどうかを判断し、ビジネス指標を追跡します. A/B テストは新しい機能には適用されません。

AA/BB テストの信頼性

サインアップ ボタンで最初のサンプルに戻ります。私たちの推測が正しければ、A オプションと B オプションをさらに追加しても、B は依然として戦闘に勝つことができるため、何も変更することはできません。

AA/BB testing

次に、結果を見てください。

A1: 5 万人の訪問者 - 500 人のサインアップ A2: 5 万人の訪問者 - 580 のサインアップ - 勝者 B1: 5 万人の訪問者 - 570 人のサインアップ - 勝者 B2: 5 万人の訪問者 - 500 人のサインアップ

何!何!何!ありえないと言えますが、この状況は、訪問者の割り当てがテスト結果に影響を与える場合に違いを示します。この結果は安定した 95% の統計的有意性を示していますが、信頼性は低いです。

適応テスト

記事の冒頭に戻ると、意味のある結果を得るには 50,000 人の訪問者と 500 回の遷移が必要な巨大なトラフィックに気付くでしょう。ただし、すべてのページにこの可能性があるわけではありません。すべてのスタートアップがそのようなトラフィックを生成するのに十分であるとは限りません。または、設定/請求などのトラフィックの少ないページである可能性があります。これらすべてのケースで、従来の a/b テストではデータを収集するのに膨大な時間がかかります。とか、ぐらい。一般的なアプローチの次の欠点は、少なくとも 50,000 人の訪問者 (テストに割り当てられた 100,000 人から) が顧客体験を悪化させたことです。そのため、「失う」テストへの割り当てにより、長い間待機し、顧客を失っています。意味がありますか?ヘルスケアの医師は症例の問題を横断しましたが、テーブルでは人々の命がありました。ウィッチ中にテストを行うと、50% の忍耐力が「テストされていない」ために死にます。そして、それはめちゃくちゃです。適応テストのアイデアを思いついた Marvin Zelen は、現在 Zelen’s design と呼ばれています。

要するに

赤玉と青玉の 2 つの可能性があるとします。統計的には 50% の確率です。

Adaptive test initial state

たとえば、訪問者をランダムに「青」に割り当てます。「青」は購入があったため、より良いエクスペリエンスです。この場合、「青」が勝っているため、追加の「青」ボールをプールに追加します。

Adaptive test added blue ball

結果確率が「赤」 - 33%、「青」 - 67% に変更されました。

いいですね!しかし、「青」の次の訪問者は何もしません。 「青」が負けているので、プールから「青」のボールを 1 つ取り除く必要があり、以前の状態が得られます。

Adaptive test final state

プラス: + 少量のトラフィックで機能します + ユーザーにより良いケアを適応的に提供 マイナス: - 開発者は、テストの過程でテストの勝敗を判断する必要があります

脳震盪

  • 従来の A/B テストは、新しい機能に対しては機能しません。なぜなら、何もテストできないからです
  • 一般的に、A/B テストは、分析結果が代表的であると述べていても、代表的ではありません。
  • AA/BB アプローチは、A/B テスト結果の確認に役立ちます
  • アダプティブ テストはトラフィックが少ない場合に非常に便利ですが、目標を設定するには手作業が必要です


ソーシャルメディア分析を揺るがす準備ができたら

TrueSocialMetricsを試してみてください!


トライアルを開始
クレジットカードは必要ありません。






読み続けて




AdWords キャンペーンの測定と改善
Adwords を使用する最初の試みは少しがっかりしました :) Adwords からのトラフィックは質が悪く、非常に高価でした。これが、私たちがこれにどのように対処したかという話です。大失敗の主な理由は、キーワードの品質スコアの問題でした。症状としては、時間の流れとともにキーワードが劣化していくというものでした。


ソーシャル メディアで成功するための Fujo のステップ
この記事が、ソーシャル メディアのパフォーマンスの測定を開始するのに役立ち、ソーシャル メディア活動をより成功させる方法について考えられるようになることを願っています。


今すぐすばらしいコンテンツの作成を開始するための 10 のヒント
あなたの個人的なミューズが素晴らしいコンテンツを作るのを常に待つ必要があると思いますか?しかし、この女性が数日間来ない場合はどうなりますか?この苦しみを取り除き、今すぐ素晴らしいものを作り始めるためのヒントをいくつか紹介します!


トップブランドのツイート頻度
Twitter の理想的な投稿密度に関する特効薬はありません。世界の主要ブランドと同じように、自分のスイート スポットを見つける必要があります。彼らの中には、ソーシャル メディアでロックする方法を確実に知っている人もいるので、可能な限り最善の方法で自分自身をモデル化する必要があります。