Hinweis: Dies ist eine deutsche Übersetzung eines ursprünglich auf Englisch veröffentlichten Blogs, den Sie hier finden können: https://statsig.com/blog/stratified-sampling-in-ab-tests
Die stratifizierte Stichprobenziehung ist eine Technik, bei der eine Population vor der Stichprobenentnahme in kleinere, unterschiedliche Untergruppen oder Schichten unterteilt wird. Diese Methode ist bei A/B-Tests von entscheidender Bedeutung, da sie sicherstellt, dass jede Untergruppe angemessen repräsentiert ist und somit eine genauere, unverzerrte Stichprobe liefert, die die Vielfalt der gesamten Population widerspiegelt. Für den Praktiker bedeutet dies, dass zufällige Falsch-Positive, die durch kleine Nutzergruppen mit hoher Nutzung verursacht werden, weniger wahrscheinlich sind.
Der Grund, warum die stratifizierte Stichprobenziehung bei A/B-Tests so wertvoll ist, liegt in ihrem Einfluss auf Präzision und Zuverlässigkeit. Die stratifizierte Stichprobenziehung reduziert die Falsch-Positiv-Rate, indem sie das „identisch"-Element der i.i.d.-Annahme bei Experimenten durchsetzt.
Durch die Integration der stratifizierten Stichprobenziehung in Ihr A/B-Test-Framework, zusammen mit Drill-downs, wie sie auf den meisten Experimentierplattformen angeboten werden, experimentieren Sie nicht nur; Sie gewinnen auch ein präzises Verständnis dafür, wie verschiedene Segmente Ihrer Nutzerbasis auf Änderungen reagieren, was gezieltere und effektivere Optimierungen ermöglicht.
Bei der Einrichtung Ihrer A/B-Tests ist die Auswahl der richtigen Schichten der erste Schritt. Überlegen Sie, welche Faktoren das Ergebnis beeinflussen könnten – Alter, Standort, Nutzungshäufigkeit? Das sind Ihre Schichten.
So legen Sie diese entscheidenden Elemente fest:
Identifizieren Sie Schlüssel-Kovariaten: Schauen Sie sich vergangene Daten an, um zu sehen, welche demografischen Merkmale oder Verhaltensweisen eng mit den Änderungen verbunden sind, die Sie testen.
Kategorisieren Sie Ihre Nutzer: Gruppieren Sie sie nach diesen identifizierten Kovariaten. Dies stellt sicher, dass jede Kategorie getestet wird.
Es wird Kompromisse bei der Ausbalancierung geben. Im Allgemeinen sind Gruppen mit einer kleinen Anzahl von Experimentiereinheiten, aber einem großen Anteil am Metrikbeitrag, am wichtigsten auszubalancieren.
Wenn Sie zwei Gruppen haben, die jeweils 50% Ihres Gesamtwerts beitragen, und eine 100.000 Nutzer hat, während die andere 10 hat, ist es viel wahrscheinlicher, dass die Gruppe von 10 ungleichmäßig auf Ihre Experimentgruppen aufgeteilt wird. Wenn 8 von ihnen in der Testgruppe und 2 in der Kontrollgruppe sind, würden Sie selbst ohne Behandlungseffekt eine Steigerung von 85% melden! Die stratifizierte Stichprobenziehung verhindert, dass dies auftritt.
Indem Sie diese Schritte befolgen, bauen Sie Ihren A/B-Test auf einem Fundament auf, das für aufschlussreiche, umsetzbare Ergebnisse geschaffen wurde.
Es gibt drei gängige Methoden der Stratifizierung:
Innerhalb Ihrer Zuweisungslösung. Dies wird oft implementiert, indem pro Schicht Zähler für bisherige Zuweisungen geführt werden und die Zuweisungsraten angepasst werden, um diese im Verlauf des Experiments im Gleichgewicht zu halten. Dies funktioniert für kleine Experimente oder Offline-Experimente, kann aber bei einer skalierten Echtzeit-Plattform aufgrund der Kosten und Latenz beim Nachschlagen dieser Indizes und der bestehenden Zuweisungen eines Nutzers eine Herausforderung darstellen. Die meisten Plattformen verwenden einen Hashing-Algorithmus, um einen Nutzer deterministisch derselben Gruppe zuzuweisen, ohne bei nachfolgenden Besuchen eine Datenbankabfrage durchführen zu müssen.
Post-hoc-Stichprobenziehung oder Tools wie CUPED. Es ist möglich, „zusätzliche Nutzer" in einem Segment nachträglich herauszufiltern; im obigen Beispiel könnten wir zufällig 6 Hauptnutzer aus der Analyse herausfiltern, um einen 2-2-Vergleich auszugleichen. Die Kosten sind der Verlust einiger kritischer Datenpunkte.
CUPED kann, wenn es perfekt implementiert ist, Ihre Daten auch funktional nach einer Kovariate stratifizieren. Dies erfordert, dass Sie die Regression korrekt einrichten, sodass Sie eine perfekte Abdeckung der Stratifizierungskovariate haben und dass Ihr Algorithmus die kategorische Regression problemlos handhabt. Zum Beispiel ist es bei der One-Hot-Codierung üblich, Gruppen mit niedriger Frequenz zu verwerfen – was genau die sein könnten, die Sie interessieren!
Stichprobenziehung vor dem Experiment. Dies ist eine Technik, die von Unternehmen wie Statsig verwendet wird, um „Salts" für die Verwendung in einem Hashing-Algorithmus zu identifizieren, die ausgewogene Ergebnisse liefern. Durch die Simulation verschiedener Salts und die Verwendung einer modifizierten Chi-Quadrat-Technik können Sie eine ausgewogene Randomisierung identifizieren, die stratifizierte Populationen ergibt.
Es wird empfohlen, CUPED in Verbindung mit einer der anderen Lösungen zu verwenden, um eine faire Aufteilung zu gewährleisten. Durch die korrekte Verwendung einer dieser Methoden können Sie sicherstellen, dass Ihre A/B-Tests sowohl effizient als auch effektiv sind und zuverlässige Einblicke in das Nutzerverhalten und die Präferenzen liefern.