Hinweis: Dies ist eine deutsche Übersetzung eines ursprünglich auf Englisch veröffentlichten Blogs, den Sie hier finden können: https://statsig.com/blog/cuped
CUPED (Controlled-experiment Using Pre-Experiment Data) wird seit seiner Einführung durch Microsoft im Jahr 2013 in der Online-Experimentation immer beliebter. Es ist eines der leistungsfähigsten algorithmischen Werkzeuge zur Steigerung der Geschwindigkeit und Genauigkeit von Experimentierungsprogrammen.
Bei Experimenten ist es üblich, Ergebnisse zu sehen, die knapp außerhalb des Bereichs der statistischen Signifikanz liegen. In einem frequentistischen Rahmen ist dies kein ausreichender Beweis dafür, dass Ihre Änderung eine Verhaltensänderung bei den Nutzern verursacht hat.
Wenn es einen echten Effekt gäbe, bräuchten Sie eine größere Stichprobe, um Ihre Chancen auf ein statistisch signifikantes Ergebnis zu erhöhen. Die Stichprobengröße ist jedoch teuer und normalerweise proportional zum Einschreibungsfenster Ihres Experiments.
Selbst große Unternehmen wie Facebook und Amazon müssen warten, bis Experimente Nutzer einschreiben und reifen, da sie typischerweise nach relativ kleinen Effekten suchen. Für kleinere Unternehmen kann die Messung kleiner Effektgrößen aufgrund der erforderlichen Zeit zum Sammeln ausreichender Stichproben undurchführbar sein.
CUPED löst dieses Problem, indem es Daten vor dem Experiment verwendet, um einen Teil der Varianz in den Ergebnisdaten zu erklären.
Das Kernkonzept hinter CUPED ist einfach: Nicht alle Varianz in einem Experiment ist zufällig. Viele Unterschiede in den Nutzerergebnissen basieren auf bereits bestehenden Faktoren, die nichts mit dem Experiment zu tun haben.
Betrachten Sie ein Experiment, das testet, ob Menschen mit angebrachten Gewichten langsamer laufen. Wenn wir nur die Meilenlaufzeiten des Experiments betrachten:
Es gibt erhebliche Varianz und Überschneidungen in den beobachteten Meilenlaufzeiten. Aber wenn wir eine Baseline etablieren, indem wir sie bitten, vor dem Experiment eine Meile zu laufen:
Im Kontext ihrer "typischen" Meilenlaufzeit wird der Effekt klarer. Wir haben von der Betrachtung der rohen "Meilenlaufzeit" zur Betrachtung der Differenz zu dem gewechselt, was wir erwarten würden.
Dadurch haben wir einen Teil des Rauschens und der Varianz in der Experimentmetrik "erklärt". Die Spanne in unserer Metrik wurde von 140 Sekunden auf 65 Sekunden reduziert, was eine geringere Varianz für die Berechnung von Konfidenzintervallen und p-Werten bedeutet.
Zufällige Zuordnung kann manchmal dazu führen, dass Experimentgruppen unterschiedliche Baseline-Werte haben. Wenn Sie Pech haben, könnte dieser Unterschied sogar statistisch signifikant sein, was zu falschen Schlussfolgerungen führt.
Mit CUPED werden die Experimentergebnisse einer Gruppe mit schnellerem durchschnittlichen Baseline-Wert relativ zur langsameren Gruppe angepasst. Diese Korrektur hilft, bereits bestehende Unterschiede zwischen Gruppen zu berücksichtigen.
Einige Varianten von CUPED sind "nicht-parametrisch" oder "gebuckelt", was bedeutet, dass Nutzer basierend auf ihren Werten vor dem Experiment in Gruppen aufgeteilt werden und Metriken relativ zum durchschnittlichen Metrikwert dieser Gruppe gemessen werden.
Komplexere Implementierungen von CUPED können andere Informationen über den Metrikwert vor dem Experiment hinaus einbeziehen, wie z.B. demografische Daten, solange diese unabhängig von der Experimentgruppenzuordnung sind.
In der Praxis können wir nicht einfach die früheren Werte eines Nutzers von seinen experimentellen Werten abziehen, da vergangenes Verhalten nicht immer ein perfekter Prädiktor für zukünftiges Verhalten ist.
Ein T-Test für eine gegebene Metrik ist mathematisch äquivalent zur Durchführung einer Regression, bei der die abhängige Variable Ihre Metrik und die unabhängige Variable die Experimentgruppe eines Nutzers ist.
Wenn wir Baseline-Daten als Faktor in unsere Regression einbeziehen, sinkt der Standardfehler (und entsprechend der p-Wert) typischerweise erheblich. Dies liegt daran, dass ein Großteil des Rauschens, das zuvor der Zufälligkeit zugeschrieben wurde, tatsächlich daher kam, dass Nutzer unterschiedliche Baselines hatten.
Die CUPED-Formel passt den Experimentwert (Y) jedes Nutzers unter Verwendung seines Werts vor dem Experiment (X) wie folgt an:
Ycv = Y + θ(Populationsmittelwert von X - X)
Wobei θ berechnet wird, um die Varianz zu minimieren und dem Anstieg in einer OLS-Regression entspricht.
Die endgültige Varianz für unseren Schätzer ist: Var(Ycv) = Var(Y)(1-ρ²)
Wobei ρ die Korrelation zwischen X und Y ist. Je stärker die Korrelation, desto größer die Varianzreduktion.
Um CUPED zu implementieren:
Berechnen Sie die Kovarianz zwischen Y und X sowie die Varianz und den Mittelwert von X, um θ zu bestimmen
Berechnen Sie für jeden Nutzer seinen individuellen Wert vor dem Experiment
Fügen Sie die Populationsstatistiken zu den Daten auf Nutzerebene hinzu
Berechnen Sie den angepassten Term jedes Nutzers als Y + θ*(Populationsmittelwert von X) - θX
Führen Sie Ihre statistische Analyse mit den angepassten Metriken durch und interpretieren Sie sie
CUPED ist am effektivsten für Experimente mit bestehenden Nutzern, für die Sie historische Daten haben
Sie müssen sicherstellen, dass Ihre Metrikdaten bis vor den Beginn des Zeitfensters der Daten vor dem Experiment zurückreichen
Die Effektivität von CUPED hängt davon ab, wie stark eine Metrik mit ihrem vergangenen Wert für denselben Nutzer korreliert
Für neue Nutzer ohne Daten vor dem Experiment können Sie sie entweder von CUPED-Anpassungen ausschließen oder andere Kovariaten wie demografische Daten verwenden
CUPED hilft, die Varianz in Experimentergebnissen zu reduzieren, indem es Daten vor dem Experiment nutzt, sodass Sie kleinere Effekte mit derselben Stichprobengröße erkennen oder schneller statistische Signifikanz erreichen können. Dies macht Experimente effizienter und ermöglicht es Unternehmen, datengestützte Entscheidungen schneller zu treffen.