Kontrolle deiner Fehler 1. Art: Bonferroni und Benjamini-Hochberg

Tue Jun 24 2025

Hinweis: Dies ist eine deutsche Übersetzung eines ursprünglich auf Englisch veröffentlichten Blogs, den Sie hier finden können: https://statsig.com/blog/controlling-type-i-errors-bonferroni-benjamini-hochberg

Wir alle wünschen uns statistisch signifikante Ergebnisse aus unseren Experimenten, aber noch mehr möchten wir sicher sein, dass diese Ergebnisse real sind.

Das Benjamini-Hochberg-Verfahren ist jetzt bei Statsig verfügbar, um Ihre falsch-positiven Ergebnisse zu reduzieren.

Je mehr Hypothesen wir testen, desto wahrscheinlicher ist es, dass wir zufällig statistisch signifikante Ergebnisse sehen - selbst ohne zugrunde liegenden Effekt. Die Bonferroni-Korrektur und das Benjamini-Hochberg-Verfahren sind verschiedene Techniken, um diese falsch-positiven Ergebnisse bei mehreren Vergleichen zu reduzieren.

Das Benjamini-Hochberg-Verfahren und die Bonferroni-Korrektur helfen beide dabei, Sie davon abzuhalten, etwas zu launchen, wenn Sie es nicht sollten. Das Benjamini-Hochberg-Verfahren hilft am meisten, wenn eine große Anzahl von Hypothesen getestet wird und eine moderate Reduzierung falsch-positiver Ergebnisse gewünscht ist, während die Bonferroni-Korrektur konservativer ist und am nützlichsten ist, wenn eine kleinere Anzahl von Hypothesen gleichzeitig getestet wird.

Bonferroni vs. Benjamini-Hochberg

Der grundlegende Kompromiss zwischen keiner Anpassung vs. Benjamini-Hochberg-Verfahren vs. Bonferroni-Korrektur ist Ihre Risikotoleranz für Fehler 1. Art und Fehler 2. Art.

Ein Fehler 1. Art bedeutet: Ich mache unnötige Änderungen, die unser Produkt nicht wirklich verbessern. Ein Fehler 2. Art bedeutet: Ich habe eine Gelegenheit verpasst, unser Produkt zu verbessern, weil ich keinen Unterschied in meinem Experiment erkannt habe.

Was ist schlimmer?

  • (Fehler 1. Art) Ich mache unnötige Änderungen, die unser Produkt nicht wirklich verbessern.

  • (Fehler 2. Art) Ich habe eine Gelegenheit verpasst, unser Produkt zu verbessern, weil ich keinen Unterschied in meinem Experiment erkannt habe.

Die Antwort hängt vom Ziel Ihres Teams, der Reife Ihres Produkts und den Ressourcen ab, die Sie für die Implementierung und Wartung von Änderungen aufwenden können.

Wenn es eine große Anzahl von Hypothesen gibt, die ich testen möchte, kann die Verwendung der Bonferroni-Korrektur die Power meiner Experimente sehr schnell verringern. Das Benjamini-Hochberg-Verfahren ist weniger streng bei der Bestrafung mehrerer Vergleiche, bedeutet aber im Gegenzug, dass Sie eher Fehler 1. Art machen als bei Verwendung der Bonferroni-Korrektur.

Die Bonferroni-Korrektur kontrolliert die familienbezogene Fehlerrate (FWER), während das Benjamini-Hochberg-Verfahren die Falschentdeckungsrate (FDR) kontrolliert.

  • FWER = die Wahrscheinlichkeit, bei einem der Vergleiche einen Fehler 1. Art zu machen

  • FDR = die Wahrscheinlichkeit, dass eine Nullhypothese wahr ist, wenn Sie sie abgelehnt haben

Wir empfehlen generell das Benjamini-Hochberg-Verfahren als weniger strenge Maßnahme als die Bonferroni-Korrektur, die Sie aber dennoch vor einem gewissen Maß an Fehlern 1. Art schützt. Welche Methodik Sie auch immer verwenden möchten, Sie können Ihr Experimentierungsprogramm danach bewerten, wie viele Änderungen Sie basierend auf Experimentergebnissen ausgeliefert haben und wie sich diese Änderungen auf Ihr Produkt ausgewirkt haben (Holdouts sind eine großartige Möglichkeit, dies zu tun!), um festzustellen, ob Sie mehr oder weniger Kontrollen benötigen, um falsch-positive Ergebnisse zu verhindern.

Erste Schritte in Statsig

In den erweiterten Einstellungen jedes Experiments bei Statsig können Sie auswählen, ob Sie die Bonferroni-Korrektur oder ein Benjamini-Hochberg-Verfahren verwenden möchten.

Die Einstellung für das Benjamini-Hochberg-Verfahren finden Sie in den erweiterten Einstellungen der Experimenteinstellungsseite direkt unter unseren Bonferroni-Korrektureinstellungen.

Dies kann auch in der Experimentrichtlinie für Ihre Organisation konfiguriert werden - entweder als Standard aktiviert oder als Pflichtanforderung.

Wie entscheide ich zwischen Anzahl der Metriken vs. Anzahl der Varianten vs. beides?

Wie bei einer Bonferroni-Korrektur können Sie bei der Anwendung des Benjamini-Hochberg-Verfahrens in Statsig entscheiden, ob Sie die Methode pro Variante, pro Metrik oder für beides anwenden möchten. Dies ist eine Entscheidung, die Experimentierende im Hinblick auf die Bestrafung unterschiedlicher Hypothesen treffen sollten.

Varianten: Wenn Sie eine Korrektur verwenden, sollten Sie diese Korrektur generell pro Variante anwenden. Jede Variante ist eine unterschiedliche Behandlung für Experimentteilnehmer und repräsentiert eine eigene Hypothese.

Metriken: Verschiedene Metriken können beide als Beweis für eine Hypothese oder jeweils zur Unterstützung verschiedener Hypothesen verwendet werden. Eine gute Frage, die Sie sich stellen sollten: Würde eine positive Bewegung einer Ihrer gemessenen Metriken bedeuten, dass Sie die Funktion ausliefern möchten? Wenn ja, ist es eine gute Idee, Ihr α für mehrere Metriken zu bestrafen.

Details zur Methodik

Benjamini-Hochberg-Verfahren

Wir beginnen damit, die p-Werte in aufsteigender Reihenfolge zu sortieren. Dann berechnen wir einen Schwellenwert aus der gewünschten Falschentdeckungsrate geteilt durch die Anzahl der bewerteten Vergleiche multipliziert mit dem Rang, den ein p-Wert in der geordneten Liste hat. Der größte p-Wert, der kleiner als sein Schwellenwert ist, ist unser neues Signifikanzniveau (α), oder der kleinste Schwellenwert, wenn kein p-Wert kleiner als sein Schwellenwert ist.

Benjamini-Hochberg basierend auf Anzahl der Metriken, Anzahl der Varianten und Anzahl der Metriken und Varianten

Wenn wir das Benjamini-Hochberg-Verfahren basierend auf der Anzahl der Metriken anwenden, kontrollieren wir die FDR mit der obigen Methode für jede Variante unabhängig von den anderen. Ähnlich kontrollieren wir bei der Anwendung des Benjamini-Hochberg-Verfahrens basierend auf der Anzahl der Varianten die FDR mit der obigen Methode für jede Metrik unabhängig von den anderen. Wenn wir das Benjamini-Hochberg-Verfahren basierend auf der Anzahl der Metriken und Varianten anwenden, kontrollieren wir die FDR für das gesamte Experiment, indem wir die obige Methode für alle p-Werte für jede Metrik und Variante zusammen anwenden.

Recent Posts

We use cookies to ensure you get the best experience on our website.
Privacy Policy