CUPED erklärt

Tue Jun 24 2025

Hinweis: Dies ist eine deutsche Übersetzung eines ursprünglich auf Englisch veröffentlichten Blogs, den Sie hier finden können: https://statsig.com/blog/cuped

CUPED (Controlled-experiment Using Pre-Experiment Data) wird seit seiner Einführung durch Microsoft im Jahr 2013 in der Online-Experimentation immer beliebter. Es ist eines der leistungsfähigsten algorithmischen Werkzeuge zur Steigerung der Geschwindigkeit und Genauigkeit von Experimentierungsprogrammen.

Was CUPED löst

Bei Experimenten ist es üblich, Ergebnisse zu sehen, die knapp außerhalb des Bereichs der statistischen Signifikanz liegen. In einem frequentistischen Rahmen ist dies kein ausreichender Beweis dafür, dass Ihre Änderung eine Verhaltensänderung bei den Nutzern verursacht hat.

Wenn es einen echten Effekt gäbe, bräuchten Sie eine größere Stichprobe, um Ihre Chancen auf ein statistisch signifikantes Ergebnis zu erhöhen. Die Stichprobengröße ist jedoch teuer und normalerweise proportional zum Einschreibungsfenster Ihres Experiments.

Selbst große Unternehmen wie Facebook und Amazon müssen warten, bis Experimente Nutzer einschreiben und reifen, da sie typischerweise nach relativ kleinen Effekten suchen. Für kleinere Unternehmen kann die Messung kleiner Effektgrößen aufgrund der erforderlichen Zeit zum Sammeln ausreichender Stichproben undurchführbar sein.

CUPED löst dieses Problem, indem es Daten vor dem Experiment verwendet, um einen Teil der Varianz in den Ergebnisdaten zu erklären.

Das statistische Konzept hinter CUPED

Das Kernkonzept hinter CUPED ist einfach: Nicht alle Varianz in einem Experiment ist zufällig. Viele Unterschiede in den Nutzerergebnissen basieren auf bereits bestehenden Faktoren, die nichts mit dem Experiment zu tun haben.

Beispiel: Laufen mit Gewichten

Betrachten Sie ein Experiment, das testet, ob Menschen mit angebrachten Gewichten langsamer laufen. Wenn wir nur die Meilenlaufzeiten des Experiments betrachten:

Es gibt erhebliche Varianz und Überschneidungen in den beobachteten Meilenlaufzeiten. Aber wenn wir eine Baseline etablieren, indem wir sie bitten, vor dem Experiment eine Meile zu laufen:

Im Kontext ihrer "typischen" Meilenlaufzeit wird der Effekt klarer. Wir haben von der Betrachtung der rohen "Meilenlaufzeit" zur Betrachtung der Differenz zu dem gewechselt, was wir erwarten würden.

Dadurch haben wir einen Teil des Rauschens und der Varianz in der Experimentmetrik "erklärt". Die Spanne in unserer Metrik wurde von 140 Sekunden auf 65 Sekunden reduziert, was eine geringere Varianz für die Berechnung von Konfidenzintervallen und p-Werten bedeutet.

Bias-Korrektur

Zufällige Zuordnung kann manchmal dazu führen, dass Experimentgruppen unterschiedliche Baseline-Werte haben. Wenn Sie Pech haben, könnte dieser Unterschied sogar statistisch signifikant sein, was zu falschen Schlussfolgerungen führt.

Mit CUPED werden die Experimentergebnisse einer Gruppe mit schnellerem durchschnittlichen Baseline-Wert relativ zur langsameren Gruppe angepasst. Diese Korrektur hilft, bereits bestehende Unterschiede zwischen Gruppen zu berücksichtigen.

Stratifizierung

Einige Varianten von CUPED sind "nicht-parametrisch" oder "gebuckelt", was bedeutet, dass Nutzer basierend auf ihren Werten vor dem Experiment in Gruppen aufgeteilt werden und Metriken relativ zum durchschnittlichen Metrikwert dieser Gruppe gemessen werden.

Andere Variablen

Komplexere Implementierungen von CUPED können andere Informationen über den Metrikwert vor dem Experiment hinaus einbeziehen, wie z.B. demografische Daten, solange diese unabhängig von der Experimentgruppenzuordnung sind.

CUPED in der Praxis verwenden

In der Praxis können wir nicht einfach die früheren Werte eines Nutzers von seinen experimentellen Werten abziehen, da vergangenes Verhalten nicht immer ein perfekter Prädiktor für zukünftiges Verhalten ist.

Die Mathematik hinter CUPED

Ein T-Test für eine gegebene Metrik ist mathematisch äquivalent zur Durchführung einer Regression, bei der die abhängige Variable Ihre Metrik und die unabhängige Variable die Experimentgruppe eines Nutzers ist.

Wenn wir Baseline-Daten als Faktor in unsere Regression einbeziehen, sinkt der Standardfehler (und entsprechend der p-Wert) typischerweise erheblich. Dies liegt daran, dass ein Großteil des Rauschens, das zuvor der Zufälligkeit zugeschrieben wurde, tatsächlich daher kam, dass Nutzer unterschiedliche Baselines hatten.

Die CUPED-Formel passt den Experimentwert (Y) jedes Nutzers unter Verwendung seines Werts vor dem Experiment (X) wie folgt an:

Ycv = Y + θ(Populationsmittelwert von X - X)

Wobei θ berechnet wird, um die Varianz zu minimieren und dem Anstieg in einer OLS-Regression entspricht.

Die endgültige Varianz für unseren Schätzer ist: Var(Ycv) = Var(Y)(1-ρ²)

Wobei ρ die Korrelation zwischen X und Y ist. Je stärker die Korrelation, desto größer die Varianzreduktion.

Implementierungsschritte

Um CUPED zu implementieren:

  1. Berechnen Sie die Kovarianz zwischen Y und X sowie die Varianz und den Mittelwert von X, um θ zu bestimmen

  2. Berechnen Sie für jeden Nutzer seinen individuellen Wert vor dem Experiment

  3. Fügen Sie die Populationsstatistiken zu den Daten auf Nutzerebene hinzu

  4. Berechnen Sie den angepassten Term jedes Nutzers als Y + θ*(Populationsmittelwert von X) - θX

  5. Führen Sie Ihre statistische Analyse mit den angepassten Metriken durch und interpretieren Sie sie

Best Practices

  • CUPED ist am effektivsten für Experimente mit bestehenden Nutzern, für die Sie historische Daten haben

  • Sie müssen sicherstellen, dass Ihre Metrikdaten bis vor den Beginn des Zeitfensters der Daten vor dem Experiment zurückreichen

  • Die Effektivität von CUPED hängt davon ab, wie stark eine Metrik mit ihrem vergangenen Wert für denselben Nutzer korreliert

  • Für neue Nutzer ohne Daten vor dem Experiment können Sie sie entweder von CUPED-Anpassungen ausschließen oder andere Kovariaten wie demografische Daten verwenden

Fazit

CUPED hilft, die Varianz in Experimentergebnissen zu reduzieren, indem es Daten vor dem Experiment nutzt, sodass Sie kleinere Effekte mit derselben Stichprobengröße erkennen oder schneller statistische Signifikanz erreichen können. Dies macht Experimente effizienter und ermöglicht es Unternehmen, datengestützte Entscheidungen schneller zu treffen.

Recent Posts

We use cookies to ensure you get the best experience on our website.
Privacy Policy