Rostyslav Mykhajliw TrueSocialMetrics.com の創設者 ~ 2 分
従来の A/B テストは、異なる状態間の分布です。誰もが使用する一般的なサンプルから始めましょう。サインアップ ボタンのあるサイトがあり、現在は青ですが、新しい色の赤をテストしたいと考えています。
次に、いくつかのトラフィックをそこに割り当て、いくつかを待機します。 statistical significance の簡単な計算機があります。
オプション A: 5 万人の訪問者 - 500 人のサインアップ オプション B: 5 万人の訪問者 - 570 のサインアップ - 勝者
Bが勝者でクリアです。より多くのサインアップ、統計的有意性。
ちょっと待ってください!私たちが何か新しいものをリリースしているもの。たとえば、製品の段階的なガイドを概観するためのボタン「デモ」を追加しています。
A/B テストの単純なロジックに従っていると、うまくいきません。リンゴとオレンジを比較することはできないからです。何かと比較することはできません!それは完全に間違っています。デモボタンがない場合、ユーザーはこのオプションを持っている人よりも悪い体験をする可能性があります.ただし、このオプションは、すでに製品に興味を持っているか、最近製品を使用することをすでに表明しているユーザーにのみ役立つ場合があります。何百万ものトラフィックがあっても、結果が遅れる可能性があるため、数時間/数日でどのように機能するかを説明することはできません.
新しい機能については、経腸リリース プロセスとして線形にリリースする必要があります。それからしばらくしてから、それを見て、それが顧客体験に何らかの影響を与えたかどうかを判断し、ビジネス指標を追跡します. A/B テストは新しい機能には適用されません。
サインアップ ボタンで最初のサンプルに戻ります。私たちの推測が正しければ、A オプションと B オプションをさらに追加しても、B は依然として戦闘に勝つことができるため、何も変更することはできません。
次に、結果を見てください。
A1: 5 万人の訪問者 - 500 人のサインアップ A2: 5 万人の訪問者 - 580 のサインアップ - 勝者 B1: 5 万人の訪問者 - 570 人のサインアップ - 勝者 B2: 5 万人の訪問者 - 500 人のサインアップ
何!何!何!ありえないと言えますが、この状況は、訪問者の割り当てがテスト結果に影響を与える場合に違いを示します。この結果は安定した 95% の統計的有意性を示していますが、信頼性は低いです。
記事の冒頭に戻ると、意味のある結果を得るには 50,000 人の訪問者と 500 回の遷移が必要な巨大なトラフィックに気付くでしょう。ただし、すべてのページにこの可能性があるわけではありません。すべてのスタートアップがそのようなトラフィックを生成するのに十分であるとは限りません。または、設定/請求などのトラフィックの少ないページである可能性があります。これらすべてのケースで、従来の a/b テストではデータを収集するのに膨大な時間がかかります。とか、ぐらい。一般的なアプローチの次の欠点は、少なくとも 50,000 人の訪問者 (テストに割り当てられた 100,000 人から) が顧客体験を悪化させたことです。そのため、「失う」テストへの割り当てにより、長い間待機し、顧客を失っています。意味がありますか?ヘルスケアの医師は症例の問題を横断しましたが、テーブルでは人々の命がありました。ウィッチ中にテストを行うと、50% の忍耐力が「テストされていない」ために死にます。そして、それはめちゃくちゃです。適応テストのアイデアを思いついた Marvin Zelen は、現在 Zelen’s design と呼ばれています。
赤玉と青玉の 2 つの可能性があるとします。統計的には 50% の確率です。
たとえば、訪問者をランダムに「青」に割り当てます。「青」は購入があったため、より良いエクスペリエンスです。この場合、「青」が勝っているため、追加の「青」ボールをプールに追加します。
結果確率が「赤」 - 33%、「青」 - 67% に変更されました。
いいですね!しかし、「青」の次の訪問者は何もしません。 「青」が負けているので、プールから「青」のボールを 1 つ取り除く必要があり、以前の状態が得られます。
プラス: + 少量のトラフィックで機能します + ユーザーにより良いケアを適応的に提供 マイナス: - 開発者は、テストの過程でテストの勝敗を判断する必要があります