誤解を招く A/B テストは簡単です

Rostyslav Mykhajliw TrueSocialMetrics.com の創設者 ~ 2 分

クラシック

従来の A/B テストは、異なる状態間の分布です。誰もが使用する一般的なサンプルから始めましょう。サインアップ ボタンのあるサイトがあり、現在は青ですが、新しい色の赤をテストしたいと考えています。

A/B testing

次に、いくつかのトラフィックをそこに割り当て、いくつかを待機します。 statistical significance の簡単な計算機があります。

オプション A: 5 万人の訪問者 - 500 人のサインアップ オプション B: 5 万人の訪問者 - 570 のサインアップ - 勝者

Bが勝者でクリアです。より多くのサインアップ、統計的有意性。

新しい古典的なリンゴからオレンジへ

ちょっと待ってください!私たちが何か新しいものをリリースしているもの。たとえば、製品の段階的なガイドを概観するためのボタン「デモ」を追加しています。 A/B testing a new feature

A/B テストの単純なロジックに従っていると、うまくいきません。リンゴとオレンジを比較することはできないからです。何かと比較することはできません!それは完全に間違っています。デモボタンがない場合、ユーザーはこのオプションを持っている人よりも悪い体験をする可能性があります.ただし、このオプションは、すでに製品に興味を持っているか、最近製品を使用することをすでに表明しているユーザーにのみ役立つ場合があります。何百万ものトラフィックがあっても、結果が遅れる可能性があるため、数時間/数日でどのように機能するかを説明することはできません.

新しい機能については、経腸リリース プロセスとして線形にリリースする必要があります。それからしばらくしてから、それを見て、それが顧客体験に何らかの影響を与えたかどうかを判断し、ビジネス指標を追跡します. A/B テストは新しい機能には適用されません。

AA/BB テストの信頼性

サインアップ ボタンで最初のサンプルに戻ります。私たちの推測が正しければ、A オプションと B オプションをさらに追加しても、B は依然として戦闘に勝つことができるため、何も変更することはできません。

AA/BB testing

次に、結果を見てください。

A1: 5 万人の訪問者 - 500 人のサインアップ A2: 5 万人の訪問者 - 580 のサインアップ - 勝者 B1: 5 万人の訪問者 - 570 人のサインアップ - 勝者 B2: 5 万人の訪問者 - 500 人のサインアップ

何!何!何!ありえないと言えますが、この状況は、訪問者の割り当てがテスト結果に影響を与える場合に違いを示します。この結果は安定した 95% の統計的有意性を示していますが、信頼性は低いです。

適応テスト

記事の冒頭に戻ると、意味のある結果を得るには 50,000 人の訪問者と 500 回の遷移が必要な巨大なトラフィックに気付くでしょう。ただし、すべてのページにこの可能性があるわけではありません。すべてのスタートアップがそのようなトラフィックを生成するのに十分であるとは限りません。または、設定/請求などのトラフィックの少ないページである可能性があります。これらすべてのケースで、従来の a/b テストではデータを収集するのに膨大な時間がかかります。とか、ぐらい。一般的なアプローチの次の欠点は、少なくとも 50,000 人の訪問者 (テストに割り当てられた 100,000 人から) が顧客体験を悪化させたことです。そのため、「失う」テストへの割り当てにより、長い間待機し、顧客を失っています。意味がありますか?ヘルスケアの医師は症例の問題を横断しましたが、テーブルでは人々の命がありました。ウィッチ中にテストを行うと、50% の忍耐力が「テストされていない」ために死にます。そして、それはめちゃくちゃです。適応テストのアイデアを思いついた Marvin Zelen は、現在 Zelen’s design と呼ばれています。

要するに

赤玉と青玉の 2 つの可能性があるとします。統計的には 50% の確率です。

Adaptive test initial state

たとえば、訪問者をランダムに「青」に割り当てます。「青」は購入があったため、より良いエクスペリエンスです。この場合、「青」が勝っているため、追加の「青」ボールをプールに追加します。

Adaptive test added blue ball

結果確率が「赤」 - 33%、「青」 - 67% に変更されました。

いいですね!しかし、「青」の次の訪問者は何もしません。 「青」が負けているので、プールから「青」のボールを 1 つ取り除く必要があり、以前の状態が得られます。

Adaptive test final state

プラス: + 少量のトラフィックで機能します + ユーザーにより良いケアを適応的に提供 マイナス: - 開発者は、テストの過程でテストの勝敗を判断する必要があります

脳震盪

  • 従来の A/B テストは、新しい機能に対しては機能しません。なぜなら、何もテストできないからです
  • 一般的に、A/B テストは、分析結果が代表的であると述べていても、代表的ではありません。
  • AA/BB アプローチは、A/B テスト結果の確認に役立ちます
  • アダプティブ テストはトラフィックが少ない場合に非常に便利ですが、目標を設定するには手作業が必要です


ソーシャルメディア分析を揺るがす準備ができたら

TrueSocialMetricsを試してみてください!


トライアルを開始
クレジットカードは必要ありません。






読み続けて




AdWords キャンペーンの測定と改善
Adwords を使用する最初の試みは少しがっかりしました :) Adwords からのトラフィックは質が悪く、非常に高価でした。これが、私たちがこれにどのように対処したかという話です。大失敗の主な理由は、キーワードの品質スコアの問題でした。症状としては、時間の流れとともにキーワードが劣化していくというものでした。


ピンの最もバイラルなタイプ: Pinterest の Barney's
Barney's が Pinterest で服やアクセサリーを紹介するために使っている興味深いテクニックを見つけました。商品ごとに必ず「単品」と「セット商品」の2種類のピンを作っています。製品表現の両方の方法の有効性を比較せずに通り過ぎることはできませんでした。 「個別の商品」と「設定された商品」のどちらの形式が再ピンされ、好かれやすいでしょうか?


Google+ コミュニティ: コミュニティの健全性を分析する
あなたがコミュニティの所有者であるか、どのコミュニティに参加するか、ブランドを代表するかを評価しているだけの場合は、コミュニティの健全性を調べて、フォロワー数の背後で何が起こっているかを確認することをお勧めします. G+ の上位 5 つのソーシャル メディア マーケティング コミュニティを比較してみましょう。


ソーシャル メディアでのプレゼンスを向上させるための 30 日間のアドバイス
ソーシャル メディアの統計情報を向上させる方法を探している場合、最善の方法は実験を続け、新しいことを試すことです。今月試してみて、何が効果的かを確認できる、小さくて簡単な実験と成長のハックを 30 個集めました。それらはすべて低コストで実装が簡単ですが、ほんのわずかな調整でも大きな改善につながる可能性があります.