Hinweis: Dies ist eine deutsche Übersetzung eines ursprünglich auf Englisch veröffentlichten Blogs, den Sie hier finden können: https://statsig.com/blog/one-tailed-vs-two-tailed-tests
Wenn Sie jemals Daten mit integrierten t-Test-Funktionen analysiert haben, wie sie beispielsweise in R oder SciPy verfügbar sind, hier eine Frage an Sie: Haben Sie jemals die Standardeinstellung für die Alternativhypothese angepasst? Falls Ihre Antwort nein lautet – oder Sie nicht einmal sicher sind, was das bedeutet – dann ist dieser Blog für Sie!
Der Parameter der Alternativhypothese, in der Statistik üblicherweise als „einseitig" versus „zweiseitig" bezeichnet, definiert die erwartete Richtung des Unterschieds zwischen Kontroll- und Behandlungsgruppen.
Bei einem zweiseitigen Test prüfen wir, ob überhaupt ein Unterschied in den Mittelwerten zwischen den Gruppen besteht, ohne eine Richtung festzulegen. Ein einseitiger Test hingegen postuliert eine spezifische Richtung – ob der Mittelwert der Kontrollgruppe entweder kleiner oder größer als der der Behandlungsgruppe ist.
Die Wahl zwischen ein- und zweiseitiger Hypothese mag wie ein kleines Detail erscheinen, beeinflusst jedoch jede Phase des A/B-Tests: von der Testplanung über die Datenanalyse bis zur Ergebnisinterpretation. Dieser Artikel schafft eine theoretische Grundlage dafür, warum die Richtung der Hypothese wichtig ist, und untersucht die Vor- und Nachteile beider Ansätze.
Um die Bedeutung der Wahl zwischen einseitiger und zweiseitiger Hypothese zu verstehen, lassen Sie uns kurz die Grundlagen des t-Tests durchgehen, der häufig verwendeten Methode beim A/B-Testing. Wie andere Hypothesentestverfahren beginnt der t-Test mit einer konservativen Annahme: Es gibt keinen Unterschied zwischen den beiden Gruppen (die Nullhypothese). Nur wenn wir starke Beweise gegen diese Annahme finden, können wir die Nullhypothese ablehnen und schlussfolgern, dass die Behandlung eine Wirkung hatte.
Aber was qualifiziert sich als „starker Beweis"? Zu diesem Zweck wird unter der Nullhypothese ein Ablehnungsbereich bestimmt, und alle Ergebnisse, die in diesen Bereich fallen, werden als so unwahrscheinlich erachtet, dass wir sie als Beweis gegen die Plausibilität der Nullhypothese werten. Die Größe dieses Ablehnungsbereichs basiert auf einer vorbestimmten Wahrscheinlichkeit, bekannt als Alpha (α), die die Wahrscheinlichkeit darstellt, die Nullhypothese fälschlicherweise abzulehnen.
Was hat das mit der Richtung der Alternativhypothese zu tun? Tatsächlich eine ganze Menge. Während das Alpha-Niveau die Größe des Ablehnungsbereichs bestimmt, diktiert die Alternativhypothese dessen Platzierung. Bei einem einseitigen Test, bei dem wir eine spezifische Richtung des Unterschieds hypothetisieren, befindet sich der Ablehnungsbereich nur in einem Ende der Verteilung.
Für einen hypothetisierten positiven Effekt (z.B. dass der Mittelwert der Behandlungsgruppe höher ist als der der Kontrollgruppe) würde der Ablehnungsbereich im rechten Ende liegen, was einen rechtsseitigen Test erzeugt. Umgekehrt, wenn wir einen negativen Effekt hypothetisieren (z.B. dass der Mittelwert der Behandlungsgruppe kleiner ist als der der Kontrollgruppe), würde der Ablehnungsbereich im linken Ende platziert werden, was zu einem linksseitigen Test führt.
Im Gegensatz dazu ermöglicht ein zweiseitiger Test die Erkennung eines Unterschieds in beide Richtungen, sodass der Ablehnungsbereich zwischen beiden Enden der Verteilung aufgeteilt wird. Dies berücksichtigt die Möglichkeit, extreme Werte in beide Richtungen zu beobachten, unabhängig davon, ob der Effekt positiv oder negativ ist.
Um ein intuitives Verständnis aufzubauen, lassen Sie uns visualisieren, wie die Ablehnungsbereiche unter den verschiedenen Hypothesen aussehen. Denken Sie daran, dass gemäß der Nullhypothese der Unterschied zwischen den beiden Gruppen um null zentriert sein sollte. Dank des zentralen Grenzwertsatzes wissen wir auch, dass diese Verteilung einer Normalverteilung angenähert ist. Folglich sehen die Ablehnungsbereiche, die den verschiedenen Alternativhypothesen entsprechen, so aus:
Die Wahl der Richtung für die Alternativhypothese beeinflusst den gesamten A/B-Testprozess, beginnend mit der Planungsphase – insbesondere bei der Bestimmung der Stichprobengröße.
Die Stichprobengröße wird basierend auf der gewünschten Power des Tests berechnet, die die Wahrscheinlichkeit ist, einen wahren Unterschied zwischen den beiden Gruppen zu erkennen, wenn einer existiert. Um die Power zu berechnen, untersuchen wir den Bereich unter der Alternativhypothese, der dem Ablehnungsbereich entspricht (da die Power die Fähigkeit widerspiegelt, die Nullhypothese abzulehnen, wenn die Alternativhypothese wahr ist).
Da die Richtung der Hypothese die Größe dieses Ablehnungsbereichs beeinflusst, ist die Power bei einer zweiseitigen Hypothese im Allgemeinen geringer. Dies liegt daran, dass der Ablehnungsbereich über beide Enden verteilt ist, was es schwieriger macht, einen Effekt in eine bestimmte Richtung zu erkennen. Die folgende Grafik veranschaulicht den Vergleich zwischen den beiden Arten von Hypothesen.
Beachten Sie, dass der violette Bereich bei der einseitigen Hypothese größer ist als bei der zweiseitigen Hypothese:
In der Praxis kompensieren wir die reduzierte Power einer zweiseitigen Hypothese, indem wir die Stichprobengröße erhöhen, um das gewünschte Power-Niveau aufrechtzuerhalten (Eine Erhöhung der Stichprobengröße erhöht die Power, obwohl die Mechanismen dahinter ein Thema für einen separaten Artikel sein könnten). Somit beeinflusst die Wahl zwischen ein- und zweiseitiger Hypothese direkt die erforderliche Stichprobengröße für Ihren Test.
Über die Planungsphase hinaus wirkt sich die Wahl der Alternativhypothese direkt auf die Analyse und Interpretation der Ergebnisse aus. Es gibt Fälle, in denen ein Test mit einem einseitigen Ansatz Signifikanz erreichen kann, aber nicht mit einem zweiseitigen, und umgekehrt.
Ein Blick auf die vorherige Grafik kann dies veranschaulichen: Zum Beispiel könnte ein Ergebnis im linken Ende unter einer zweiseitigen Hypothese signifikant sein, aber nicht unter einer rechtsseitigen einseitigen Hypothese. Umgekehrt könnten bestimmte Ergebnisse in den Ablehnungsbereich eines rechtsseitigen einseitigen Tests fallen, aber außerhalb des Ablehnungsbereichs bei einem zweiseitigen Test liegen.
Beginnen wir mit dem Fazit: Es gibt hier keine absolute richtige oder falsche Wahl. Beide Ansätze sind gültig, und die primäre Überlegung sollten Ihre spezifischen Geschäftsanforderungen sein. Um Ihnen bei der Entscheidung zu helfen, welche Option am besten zu Ihrem Unternehmen passt, werden wir die wichtigsten Vor- und Nachteile jeder Option darlegen.
Auf den ersten Blick mag eine einseitige Alternative die klare Wahl zu sein scheinen, da sie oft besser mit den Geschäftszielen übereinstimmt. In industriellen Anwendungen liegt der Fokus typischerweise darauf, spezifische Metriken zu verbessern, anstatt die Auswirkungen einer Behandlung in beide Richtungen zu erforschen.
Dies ist besonders relevant beim A/B-Testing, wo das Ziel oft darin besteht, Konversionsraten zu optimieren oder den Umsatz zu steigern. Wenn die Behandlung nicht zu einer signifikanten Verbesserung führt, wird die untersuchte Änderung nicht implementiert.
Über diesen konzeptionellen Vorteil hinaus haben wir bereits einen wichtigen Vorteil einer einseitigen Hypothese erwähnt: Sie erfordert eine kleinere Stichprobengröße. Somit kann die Wahl einer einseitigen Alternative sowohl Zeit als auch Ressourcen sparen. Um diesen Vorteil zu veranschaulichen, zeigen die folgenden Grafiken die erforderlichen Stichprobengrößen für ein- und zweiseitige Hypothesen mit verschiedenen Power-Levels (Alpha ist auf 5% festgelegt).
In diesem Kontext wird die Entscheidung zwischen einseitiger und zweiseitiger Hypothese besonders wichtig beim sequenziellen Testen – einer Methode, die eine fortlaufende Datenanalyse ermöglicht, ohne das Alpha-Niveau zu erhöhen. Hier kann die Auswahl eines einseitigen Tests die Dauer des Tests erheblich reduzieren und schnellere Entscheidungen ermöglichen, was besonders wertvoll in dynamischen Geschäftsumgebungen ist, in denen schnelle Reaktionen unerlässlich sind.
Seien Sie jedoch nicht zu schnell dabei, die zweiseitige Hypothese zu verwerfen! Sie hat ihre eigenen Vorteile. In einigen Geschäftskontexten ist die Fähigkeit, „negative signifikante Ergebnisse" zu erkennen, ein großer Vorteil. Wie ein Kunde einmal mitteilte, bevorzugte er negative signifikante Ergebnisse gegenüber nicht schlüssigen, weil sie wertvolle Lernmöglichkeiten bieten. Auch wenn das Ergebnis nicht wie erwartet war, konnte er schlussfolgern, dass die Behandlung einen negativen Effekt hatte und Einblicke in das Produkt gewinnen.
Ein weiterer Vorteil zweiseitiger Tests ist ihre unkomplizierte Interpretation mittels Konfidenzintervallen (KIs). Bei zweiseitigen Tests zeigt ein KI, das die Null nicht einschließt, direkt Signifikanz an, was es für Praktiker einfacher macht, Ergebnisse auf einen Blick zu interpretieren. Diese Klarheit ist besonders attraktiv, da KIs in A/B-Testing-Plattformen weit verbreitet sind. Im Gegensatz dazu könnte bei einseitigen Tests ein signifikantes Ergebnis immer noch Null im KI einschließen, was möglicherweise zu Verwirrung oder Misstrauen in die Ergebnisse führt. Obwohl einseitige Konfidenzintervalle bei einseitigen Tests verwendet werden können, ist diese Praxis weniger verbreitet.
Durch die Anpassung eines einzelnen Parameters können Sie Ihr A/B-Testing erheblich beeinflussen: insbesondere die Stichprobengröße, die Sie sammeln müssen, und die Interpretation der Ergebnisse. Bei der Entscheidung zwischen einseitiger und zweiseitiger Hypothese sollten Sie Faktoren wie die verfügbare Stichprobengröße, die Vorteile der Erkennung negativer Effekte und die Bequemlichkeit der Abstimmung von Konfidenzintervallen (KIs) mit Hypothesentests berücksichtigen. Letztendlich sollte diese Entscheidung durchdacht getroffen werden, unter Berücksichtigung dessen, was am besten zu Ihren Geschäftsanforderungen passt.