Sequenzielle Tests auf Statsig

Tue Jun 24 2025

Hinweis: Dies ist eine deutsche Übersetzung eines ursprünglich auf Englisch veröffentlichten Blogs, den Sie hier finden können: https://statsig.com/blog/sequential-testing-on-statsig

Sequential Testing ist eine Lösung für das "Peeking-Problem" bei A/B-Tests und ermöglicht die kontinuierliche Überwachung von Experimentergebnissen ohne Erhöhung der Falsch-Positiv-Rate (FPR).

Wir haben kürzlich Statsigs Sequential-Testing-Methodik überarbeitet, um schnellere Entscheidungen zu ermöglichen. Im Vergleich zu unserer vorherigen Implementierung hat dieser neue Ansatz eine höhere statistische Power in den ersten Tagen des Experiments, während er gleichzeitig eine strenge Obergrenze für die FPR durchsetzt. Dies ist ideal für die frühzeitige Erkennung von Regressionen oder die Verkürzung der Experimentdauer, wenn die Schlüsselmetrik einen größer als erwarteten Effekt aufweist.

Die Notwendigkeit für Sequential Testing

Ein häufiges Problem bei der Durchführung von Online-A/B-Tests ist das "Peeking-Problem". Dieses entsteht, wenn Experimentmetriken kontinuierlich überwacht werden mit der Absicht, frühzeitige Versandentscheidungen zu treffen. Dies resultiert aus einer Spannung zwischen zwei Aspekten der Online-Experimentation:

Laufende Metrik-Updates

Im Gegensatz zu A/B-Tests in Bereichen wie Psychologie und Arzneimitteltests verwenden moderne Online-Experimentierplattformen Live-Datenströme und können Ergebnisse sofort anzeigen. Diese Ergebnisse können dann aktualisiert werden, um die aktuellsten Erkenntnisse widerzuspiegeln, während die Datenerfassung fortgesetzt wird. Natürlich möchten wir diese leistungsstarke Fähigkeit nutzen, um so früh wie möglich die besten Entscheidungen zu treffen.

Einschränkungen des zugrunde liegenden statistischen Tests

Bei Hypothesentests mit festem Zeithorizont akzeptieren wir eine vorbestimmte FPR, typischerweise 5% (Alpha = 0,05). Wenn der p-Wert kleiner als 0,05 ist, ist es gängige Praxis, die Nullhypothese abzulehnen und den beobachteten Effekt der getesteten Behandlung zuzuschreiben. Wir tun dies im Wissen, dass eine 5%ige Chance besteht, dass ein statistisch signifikantes Ergebnis tatsächlich nur zufälliges Rauschen ist.

Die kontinuierliche Überwachung während des Wartens auf Signifikanz führt jedoch zu einem kumulativen Effekt der 5% FPR. Stellen Sie sich vor, Sie haben einen 20-seitigen Würfel. Wenn Sie ihn einmal werfen, haben Sie eine 5%ige Chance (1 zu 20), eine 1 zu würfeln. Aber wenn Sie ihn eine Woche lang täglich werfen, ist die Wahrscheinlichkeit, mindestens einmal eine 1 zu würfeln, viel höher als 5%. Tatsächlich haben Sie Ihre Chancen jetzt auf 30% erhöht.

Die Lösung

Beim Sequential Testing ändert sich die Berechnung des Konfidenzintervalls so, dass die gewünschte Obergrenze für Falsch-Positive unabhängig davon eingehalten wird, wie oft die Metrik ausgewertet wird.

Statsigs Sequential-Testing-Methodik

Statsigs neue Sequential-Testing-Methodik basiert auf dem mSPRT-Ansatz (mixture Probability Sequential Ratio Test), der von Zhao et al. beschrieben wurde. Dies ist eine häufig verwendete Methodik, bei der die Teststatistik auf dem Likelihood-Verhältnis der Null- und Alternativhypothesen basiert.

Wir haben umfangreiche Tests durchgeführt, sowohl mit simulierten Verteilungen als auch mit Daten aus realen Experimenten, und festgestellt, dass dies die gewünschten Kriterien für Sequential Testing erfüllt:

  • Die Falsch-Positiv-Rate in A/A-Tests bleibt auch bei wiederholten Messungen über einen Zeitraum von 4 Wochen unter 5%.

  • Wenn ein realer Effekt existiert, können statistisch signifikante Ergebnisse oft früher als die Zieldauer des Experiments erkannt werden.

Evaluierungsdetails

In unserer Evaluierung haben wir die neue mSPRT-Methodik mit unserem vorherigen Ansatz sowie mit dem Standard-z-Test verglichen, der bei Tests mit festem Zeithorizont verwendet wird.

Power und Wahrscheinlichkeit für frühzeitiges Stoppen

Wir evaluierten die Power unserer Methode anhand eines Korpus von 560 kürzlich durchgeführten Experimenten auf Statsig, die fast 2.000 Scorecard-Metriken umfassten. Die Analyse deckte eine breite Palette von Produktmetriken aus verschiedenen Branchen ab (verbrachte Zeit, Umsatz, Abonnementrate, Latenz, gesendete Nachrichten, Retention usw.). Für jedes Experiment wurden die Zieldauer und die Scorecard-Metriken vom Experimentersteller festgelegt.

Wir konzentrierten uns auf Scorecard-Metriken, die basierend auf dem z-Test mit festem Zeithorizont am Ende der Zieldauer statistisch signifikant waren. Das folgende Diagramm zeigt die Wahrscheinlichkeit, dass Sequential Testing ein statistisch signifikantes Ergebnis als Funktion der Dauer zeigt. Wenn das Ergebnis statistisch signifikant ist, bedeutet dies, dass das Experiment bei Verwendung von Sequential Testing frühzeitig gestoppt werden könnte.

Unsere neue Methode hat eine höhere Wahrscheinlichkeit, frühzeitig statistisch signifikante Ergebnisse zu identifizieren, verglichen mit unserer vorherigen. Dies ist einer der Gründe für die Veröffentlichung dieses Updates: Sequential Testing bietet mehr Wert, wenn es Ergebnisse frühzeitig aufzeigt und die Experimentdauer verkürzt.

Es ist jedoch erwähnenswert, dass wir am Ende des Experiments nicht das gleiche Power-Niveau erreichen. Dies ist ein Kompromiss, dem wir nicht entgehen können, wenn wir eine Obergrenze für die FPR durchsetzen. Es lohnt sich, dies im Hinterkopf zu behalten, wenn man sich für Sequential Testing anstelle eines Standard-Tests mit festem Zeithorizont entscheidet.

Methodik

Power relativ zum Test mit festem Zeithorizont

Wahrscheinlichkeit für frühzeitiges Stoppen bei der Hälfte der Zieldauer

Fester Zeithorizont

100%

0%

Statsig neu (mSPRT)

84%

58%

Statsig v1

100%

33%

Falsch-Positiv-Rate aus simulierten A/A-Tests

Der beste Weg zur Bewertung der FPR sind A/A-Tests, bei denen neutrale Ergebnisse erwartet werden. Wir führten 10.000 simulierte A/A-Tests mit folgenden Parametern durch:

  • 100.000 Nutzer pro Gruppe, eingeschrieben über einen Zeitraum von 14 Tagen. Dies spiegelt das übliche Muster wider, dass Nutzer im Laufe der Experimentdauer schrittweise dem Experiment ausgesetzt werden.

  • Für jeden Nutzer werden zwei Metriken generiert. Die erste wird aus einer Standardnormalverteilung gezogen, die zweite aus einer Normalverteilung mit Mittelwert 1 und Standardabweichung 0,1.

Die Ergebnisse zeigen, dass die FPR für die neue Methodik sicher unter 5% liegt. Wie erwartet liegt der z-Test mit festem Zeithorizont bei etwa 5%, während der z-Test mit Peeking deutlich höher ist (über 20%). Unsere vorherige Methodik setzte keine strenge Obergrenze für die FPR durch und zeigt eine etwas höhere FPR im Vergleich zum z-Test mit festem Zeithorizont (5,5%), aber immer noch viel niedriger als der z-Test mit Peeking.

Methodik

FPR (Standardnormal)

FPR (Mittelwert=1, Std=0,1)

Fester Zeithorizont

5,3%

4,9%

Statsig neu (mSPRT)

0,4%

0,2%

Statsig alte Methode

5,5%

5,2%

Z-Test mit Peeking

20,9%

21,5%

Falsch-Positiv-Rate aus realen Daten

Wir nutzten auch vorhandene Daten auf Statsig, um die FPR unserer Methode mit realen Metriken zu evaluieren. Dies ist ein wichtiger Schritt, da die Metriken, die wir in Experimenten sehen, Verteilungen und Teilnahmeraten aufweisen können, die sich von den synthetischen Datensätzen unterscheiden.

Wir generierten 50.000 A/A-Tests mit über 5.000 Metriken von 100 verschiedenen Kunden unterschiedlicher Größe. Die Tests hatten eine Dauer von 28 Tagen und evaluierten sowohl Verhältnis- als auch Ereigniszählmetriken. Auch hier bestätigen unsere Ergebnisse, dass die FPR für unsere mSPRT-Methodik durchgehend unter 5% liegt.

Methodik

Gesamt-FPR

Verhältnis-FPR

Ereigniszähl-FPR

Fester Zeithorizont

5,0%

4,6%

5,0%

Statsig neu (mSPRT)

1,1%

1,1%

1,2%

Statsig alte Methode

5,7%

5,4%

5,7%

Z-Test mit Peeking

17,3%

20,1%

17,3%

Empfohlene Best Practices

Die beste Nutzung von Sequential Testing erfolgt oft in Kombination mit traditionellen, zeitgebundenen Hypothesentests. Sequential Testing wird am besten genutzt, um Regressionen zu identifizieren oder Versandentscheidungen basierend auf einer einzelnen Metrik zu treffen.

Produktexperimente auf Statsig umfassen oft mehrere Scorecard-Metriken, die einen ganzheitlichen Blick auf die Auswirkungen des Tests bieten. In diesen Fällen ist es ratsam, Tests mit festem Zeithorizont zu verwenden, um die volle statistische Power über alle interessierenden Metriken hinweg zu erhalten. Einige Überlegungen, die Sie im Hinterkopf behalten sollten:

Warum frühzeitige Entscheidungen vorteilhaft sind

Während "Peeking" manchmal verpönt ist, ist die frühzeitige Überwachung von Tests tatsächlich entscheidend, um den größten Nutzen aus einem Experimentierungsprogramm zu ziehen. Wenn ein Experiment eine messbare Regression einführt, gibt es keinen Grund, bis zum Ende zu warten, um Maßnahmen zu ergreifen. Mit Sequential Testing können wir leicht zwischen statistischem Rauschen und starken Effekten unterscheiden, die frühzeitig signifikant sind.

Ein weiterer Anwendungsfall für Sequential Testing ist, wenn es Opportunitätskosten gibt, das Experiment für seine volle Dauer laufen zu lassen. Zum Beispiel kann das Vorenthalten einer Verbesserung von Nutzern erhebliche technische oder geschäftliche Kosten verursachen, oder das frühzeitige Beenden eines Experiments kann den Weg für weitere Tests freimachen.

Vergessen Sie nicht die Schutzmetriken

Es ist aufregend, eine Zielmetrik mit einem frühzeitigen statistisch signifikanten Effekt zu sehen. Ein Wort der Vorsicht, bevor Sie eine frühzeitige Entscheidung treffen: Während eine Metrik frühzeitig Signifikanz erreichen kann, können andere Metriken, die neutral erscheinen, immer noch unterpowert sein.

Berücksichtigen Sie wöchentliche Saisonalität

Selbst wenn alle interessierenden Metriken frühzeitig großartig aussehen, ist es oft ratsam, mindestens 7 volle Tage zu warten, bevor eine Entscheidung getroffen wird. Dies liegt daran, dass viele Metriken von wöchentlicher Saisonalität beeinflusst werden, wenn die Endnutzer eines Produkts je nach Wochentag unterschiedliche Verhaltensweisen zeigen.

Effektgröße

Wenn eine gute Schätzung der Effektgröße wichtig ist, sollten Sie in Betracht ziehen, das Experiment bis zum Ende durchzuführen. Zum einen sind die an Sequential Testing angepassten Konfidenzintervalle breiter, sodass der Bereich wahrscheinlicher Werte bei einer frühzeitigen Entscheidung größer ist (geringere Präzision). Zusätzlich ist ein größerer gemessener Effekt eher frühzeitig statistisch signifikant, auch wenn der wahre Effekt tatsächlich kleiner ist.

Routinemäßige frühzeitige Entscheidungen basierend auf positiven statistisch signifikanten Ergebnissen könnten zu einer systematischen Überschätzung der Auswirkungen gestarteter Experimente führen (geringere Genauigkeit).

Abschließend

Sequential Testing ermöglicht die kontinuierliche Überwachung von Experimentergebnissen ohne Erhöhung der Falsch-Positiv-Rate.

Es ist ein leistungsstarkes Werkzeug zur frühzeitigen Identifizierung von Regressionen und zur Reduzierung ihrer Auswirkungen auf das Produkt. Allerdings geht es mit einer insgesamt reduzierten statistischen Power im Vergleich zu Tests mit festem Zeithorizont einher. Daher empfehlen wir, diese Methode nur dann für frühzeitige Versandentscheidungen zu verwenden, wenn es eine einzelne interessierende Metrik für das Experiment gibt.

Recent Posts

We use cookies to ensure you get the best experience on our website.
Privacy Policy