Wie man statistische Signifikanz berechnet

Tue Jun 24 2025

Hinweis: Dies ist eine deutsche Übersetzung eines ursprünglich auf Englisch veröffentlichten Blogs, den Sie hier finden können: https://statsig.com/blog/how-to-calculate-statistical-significance

Sie haben einen A/B-Test durchgeführt und die Ergebnisse liegen vor – was nun?

Sie haben die Daten und müssen jetzt die Ergebnisse analysieren. Ihr Ziel: Feststellen, ob sich A von B unterscheidet (ein klassischer zweiseitiger Hypothesentest).

Reale Daten sind jedoch verrauscht, und Sie müssen bestimmen, ob die beobachteten Unterschiede auf einen echten zugrunde liegenden Unterschied oder nur auf statistisches Rauschen zurückzuführen sind. Die Berechnung der statistischen Signifikanz ist die übliche Methode dafür.

Statistische Signifikanz ist eine Überprüfung, ob die Ergebnisse, die Sie sehen, nicht auf Zufälligkeit beruhen und es einen echten Unterschied zwischen A und B gibt. Dies ist ein kritisches Konzept beim Hypothesentesten, das statistische Leitplanken anwendet, um sicherzustellen, dass Sie keine Entscheidungen auf Basis von zufälligem Rauschen treffen.

Was ist Hypothesentesten?

Beim Hypothesentesten haben wir ein Paar von Hypothesen, die Null- und die Alternativhypothese genannt werden. Die Nullhypothese lautet einfach:

  • Bei einem zweiseitigen Test: Es gibt keinen Unterschied zwischen A und B, oder

  • Bei einem einseitigen Test: B (Test) ist nicht besser als A (Kontrolle).

Die Alternativhypothese ist genau das Gegenteil: Es gibt einen Unterschied zwischen A und B, oder dass B besser ist als A. Da ich meine Worte nicht ständig wiederholen möchte, werde ich im Folgenden nur auf zweiseitige Tests eingehen.

Hypothesentesten ist die Methode, mit der wir bestimmen, welche Hypothese korrekt ist.

Wir möchten Daten sammeln und dann feststellen, ob wir die Nullhypothese ablehnen können. Wenn wir das können, akzeptieren wir die einzige verbleibende Hypothese, die Alternativhypothese.

Der Grund für diesen umständlichen Ansatz ist, dass es wissenschaftlich und mathematisch einfacher ist, die Nullhypothese zu modellieren und zu beweisen, dass etwas ungewöhnlich ist. Die Modellierung der Alternativhypothese ist besonders herausfordernd, hauptsächlich weil nicht klar ist, wie unterschiedlich B von A ist (Um wie viel? In welche Richtung? Wie sieht die Verteilung aus?).

Statistische Signifikanz verstehen

Die Schwelle für ausreichende Beweise zur Ablehnung der Nullhypothese wird als statistische Signifikanz bezeichnet. Ihre Daten sind entweder statistisch signifikant oder nicht. Dies ermöglicht uns eine ebenso binäre Entscheidung: Lehnen wir die Nullhypothese ab oder nicht?

Schlüsselkonzepte: P-Wert und Konfidenzintervall

Es gibt zwei weitere Konzepte, mit denen wir vertraut sein müssen: P-Wert und Konfidenzintervall.

Der P-Wert ist die Wahrscheinlichkeit, dass die beobachteten Unterschiede (zwischen A und B) auf Zufall beruhen, unter der Annahme, dass die Nullhypothese (A ist gleich B) korrekt ist. Ein häufiges Missverständnis ist, dass der P-Wert die Wahrscheinlichkeit ist, dass die Nullhypothese korrekt ist. Das ist falsch und ein Thema, das außerhalb dieses Artikels ausführlich behandelt wird.

Ein niedriger P-Wert zeigt jedoch an, dass der beobachtete Unterschied unter der Nullhypothese unwahrscheinlich ist. Und wenn der P-Wert niedriger ist als unsere vorher festgelegte Schwelle für statistische Signifikanz (z.B. Alpha = 0,05), können wir die Nullhypothese ablehnen.

Dies ermöglicht es uns, die Alternativhypothese zu akzeptieren und zu schließen, dass es tatsächlich einen Unterschied zwischen A und B geben muss.

Berechnung der statistischen Signifikanz

Um den P-Wert zu berechnen, müssen wir die entsprechende Teststatistik berechnen, wie einen Z-Wert oder eine T-Statistik. Dies hängt von Ihrem Datentyp und Ihrer Stichprobengröße ab. Um eine Nullhypothese wie "es gibt keinen Unterschied zwischen A und B" zu testen, möchten wir den beobachteten Unterschied zwischen A und B berechnen, der üblicherweise als Delta bezeichnet wird.

Wir möchten auch den Standardfehler für diesen Unterschied kennen, um ein Gefühl für seine Genauigkeit und statistische Variabilität zu bekommen. Eine gängige Methode ist die Berechnung der gepoolten Standardabweichung von A und B und daraus die Ableitung des Standardfehlers.

Mit dem Delta und dem Standardfehler können Sie den Z-Wert oder die T-Statistik berechnen. Diese Werte werden einem entsprechenden P-Wert zugeordnet.

Um festzustellen, ob das Ergebnis statistisch signifikant ist, vergleichen wir den P-Wert mit unserer Signifikanzschwelle (d.h. Alpha). Wenn der P-Wert kleiner als Alpha ist, betrachten wir die Ergebnisse als statistisch signifikant. Andernfalls sind sie es nicht.

Faktoren, die die statistische Signifikanz beeinflussen

Die Stichprobengröße wirkt sich direkt auf die Zuverlässigkeit Ihrer Testergebnisse aus. Größere Stichproben liefern im Allgemeinen zuverlässigere Daten und reduzieren die Fehlermarge.

Die Standardabweichung beeinflusst auch die Zuverlässigkeit und Präzision unserer Daten. Sie ist ein Maß für die Variabilität unserer Daten. Größere Variabilität bedeutet, dass es schwieriger sein wird, A und B genau zu messen. Metriken, die binomial sind (z.B. Konversionsrate), haben tendenziell eine geringere Standardabweichung und werden häufig bei Experimenten verwendet.

Die Effektgröße ist das Ausmaß des Unterschieds. Eine erhebliche Effektgröße stellt sicher, dass die Ergebnisse nicht nur bedeutsam, sondern auch leicht zu erkennen sind.

Um beim Hypothesentesten erfolgreich zu sein, möchten Sie im Allgemeinen Szenarien mit einer großen Effektgröße, einer großen Stichprobengröße und einer kleinen Standardabweichung.

Recent Posts

We use cookies to ensure you get the best experience on our website.
Privacy Policy