Hinweis: Dies ist eine deutsche Übersetzung eines ursprünglich auf Englisch veröffentlichten Blogs, den Sie hier finden können: https://statsig.com/blog/95-percent-confidence-interval
Das 95%-Konfidenzintervall dominiert derzeit Online- und wissenschaftliche Experimente; das war schon immer so. Dennoch werden seine Gültigkeit und Nützlichkeit oft in Frage gestellt. Von einigen wird es als zu konservativ bezeichnet, von anderen als zu nachsichtig. Es gilt als willkürlich (absolut wahr), aber das ist eine gute Sache! Ich bin ein Befürworter von 95%-Konfidenzintervallen und empfehle sie als soliden Standard.
Es gibt einen Grund, warum es seit den Anfängen der modernen Statistik vor fast 100 Jahren der Standard ist. Und es ist heute im Zeitalter der Online-Experimente noch wichtiger. Ich werde erläutern, warum Sie 95% zu Ihrem Standard machen sollten und wann und wie Sie ihn anpassen können.
Dies ist ein gängiger Begriff in der Experimentierung, aber wie p-Werte ist er nicht intuitiv. Selbst Ivy-League-Statistikprofessoren können sich irren. Nach dem Lehrbuch ist ein 95%-Konfidenzintervall ein numerischer Bereich, der bei wiederholter Stichprobenziehung in 95% der Fälle den wahren Wert enthält. In der Praxis dient es als:
Ein Bereich plausibler Werte
Ein Maß für die Präzision
Ein Indikator dafür, wie wiederholbar/stabil unsere experimentelle Methode ist
(Dies sind technisch gesehen falsche Interpretationen, aber ich überlasse das den Gebildeteren zu diesem Thema.)
Die vielleicht wertvollste und korrekteste Verwendung eines 95%-Konfidenzintervalls ist als Grenzwert für die Ablehnung der Nullhypothese. Dies wird auch als 5%-Signifikanzniveau bezeichnet (100% - 95% = 5%). Ihre hart erkämpften Experimente und oft auch Hoffnungen und Träume werden sofort zu Erfolgen oder Misserfolgen. Es gibt keinen Mittelweg.
Konfidenzintervalle unterscheiden nicht zwischen absolut keinem Effekt (p=1,0) oder knappen Ergebnissen (p=0,051). Beide Szenarien führen zu demselben Schluss: Es gibt keinen echten experimentellen Effekt. Die Weichheit des Zufallsfehlers wird rücksichtslos in eine Ja/Nein-Bewertung geschnitten.
Wenn es also kein fest etabliertes 5%-Niveau gäbe, würden einige Personen das Niveau auf 6% oder 7% dehnen, um ihren Standpunkt zu beweisen. Bald würden andere auf 10% und 15% dehnen und der Fachjargon würde bedeutungslos werden.
Irwin D. J. Bross
Es ist diese gefühllose Natur, die 95%-Konfidenzintervalle so nützlich macht. Es ist ein strenger Torwächter, der statistisches Signal durchlässt und gleichzeitig viel Rauschen herausfiltert. Es dämpft falsch positive Ergebnisse auf sehr gemessene und unvoreingenommene Weise. Es schützt uns vor Experimentverantwortlichen, die voreingenommene Richter ihrer eigenen Arbeit sind. Selbst mit einem harten Grenzwert greifen wissenschaftliche Autoren komischerweise auf kreative Sprache zurück, um grenzwertige Ergebnisse zu färben und sie zu etwas mehr zu machen.
Aber warum 95%? Es wurde vom Vater der modernen Statistik selbst, Sir Ronald Fisher, festgelegt. 1925 wählte Fisher 95%, weil der zweiseitige z-Wert von 1,96 fast genau 2 Standardabweichungen entspricht. Diese Schwelle hat seitdem fast ein Jahrhundert überdauert.
Aber obwohl dies eine willkürliche Zahl ist, gibt es viele Gründe, sie zu verwenden:
Es ist unvoreingenommen. Das zu verwenden, was andere verwenden, ist vertretbar. Sie haben sich entschieden, nach denselben Regeln zu spielen, nach denen andere spielen. Versuche, diese Zahl zu ändern (z.B. 90% oder 99%), können als subjektive Manipulationen der Experimentregeln angesehen werden. Es ist, als würde ein Prozessanwalt definieren, was "über jeden vernünftigen Zweifel erhaben" tatsächlich bedeutet.
Es ist eine vernünftig hohe Messlatte. Es stellt eine 1 zu 20 Chance dar, ein signifikantes Ergebnis durch reines Glück zu finden (ohne experimentellen Effekt). Dies entfernt 95% der potenziellen falsch positiven Ergebnisse und dient als vernünftiger Filter für statistisches Rauschen.
Es ist eine vernünftig niedrige Messlatte. In der Praxis ist es ein erreichbarer Maßstab für die meisten Forschungsbereiche, um produktiv zu bleiben.
Es ist allgegenwärtig. Es stellt sicher, dass wir alle dieselbe Sprache sprechen. Was ein Team in Ihrem Unternehmen als signifikant betrachtet, ist dasselbe wie bei einem anderen Team.
Es ist praktisch. Es wurde argumentiert, dass, da p=0,05 die Konvention bleibt, es praktisch nützlich sein muss. Wäre es zu niedrig, wären Forscher frustriert. Wäre es zu hoch, hätten wir viel Müll, der unsere Forschung verschmutzt. Fisher selbst verwendete während seiner gesamten Karriere dieselbe Messlatte, ohne sie anzupassen.
Es ist eine einfache Wahl. Die Feinabstimmung Ihres Konfidenzintervalls auf vertretbare und unvoreingenommene Weise erfordert einige Arbeit. In den meisten Fällen ist es eine bessere Nutzung Ihrer Zeit, Ideen zu formulieren und sich auf die Durchführung von Experimenten zu konzentrieren.
Aus all den oben genannten Gründen empfehle ich den meisten Experimentatoren, standardmäßig 95% zu verwenden. Es gibt jedoch einige gute Gründe, warum Sie es anpassen sollten:
Ihr Risiko-Nutzen-Profil ist einzigartig. Sie haben möglicherweise eine geringe Toleranz für falsch positive oder falsch negative Ergebnisse. Zum Beispiel möchten Startup-Unternehmen mit hoher Risikotoleranz falsch negative Ergebnisse minimieren, indem sie niedrigere Konfidenzintervalle wählen (z.B. 80% oder 90%). Personen, die an kritischen Systemen wie Plattformintegrität oder lebensrettenden Medikamenten arbeiten, möchten möglicherweise falsch positive Ergebnisse minimieren und höhere Konfidenzintervalle wählen (z.B. 99%).
Sie haben die falsche Menge an statistischer Power. Sie haben Power-Berechnungen durchgeführt, die keine vernünftige Stichprobengrößenschätzung liefern. In einigen Fällen haben Sie zu wenige Stichproben und können Ihr Konfidenzintervall rückwärts berechnen. In anderen Fällen sind Sie möglicherweise mit zu vielen Stichproben gesegnet und können es sich leisten, Ihre Falsch-Positiv-Rate zu reduzieren. (Dies ist ein Big-Data-Problem!)
Die Auswahl eines benutzerdefinierten Konfidenzintervalls ist ein Kompromiss zwischen Falsch-Positiv- und Falsch-Negativ-Raten. Das Senken der Messlatte durch Verkleinern Ihres Konfidenzintervalls (auf beispielsweise 90%) erhöht Ihre Falsch-Positiv-Rate, verringert aber Ihre Falsch-Negativ-Rate. Dies wird mehr echte Effekte, aber auch mehr statistisches Rauschen aufgreifen. Die richtige Abstimmung dieser Zahl bedeutet, Ihr Risikoprofil anzupassen. Dies richtig zu tun erfordert, die Kosten eines falsch positiven gegen ein falsch negatives Ergebnis abzuwägen.
Wenn Sie sich entscheiden, diesen Weg zu gehen, habe ich einige Richtlinien:
Legen Sie Ihre Konfidenzschwelle fest, BEVOR Daten gesammelt werden. Betrüger ändern das Konfidenzintervall, nachdem es eine Gelegenheit zum Spähen gibt.
Versuchen Sie, Ihr benutzerdefiniertes Konfidenzintervall wiederzuverwenden. Es ist mühsam und potenziell voreingenommen, dies auf Experiment-für-Experiment-Basis zu tun. Es ist viel nützlicher, eine breite Palette von Situationen und Experimenten zu identifizieren, in denen das neue Konfidenzintervall breit angewendet werden sollte.
Die meisten Menschen, insbesondere Experimentier-Anfänger, sollten bei 95%-Konfidenzintervallen bleiben. Es ist ein wirklich guter Standard, der auf viele Situationen zutrifft und keine zusätzlichen Fragen aufwirft. Aber wenn Sie darauf bestehen, es zu ändern, stellen Sie sicher, dass es zu Ihrer Situation und Ihrem Risikoprofil passt, und tun Sie dies, bevor Sie das Experiment starten.