Nota: Esta es una traducción al español de un blog publicado originalmente en inglés, que puedes encontrar aquí: https://statsig.com/blog/95-percent-confidence-interval
El intervalo de confianza del 95% domina actualmente la experimentación científica y en línea; siempre lo ha hecho. Sin embargo, su validez y utilidad se cuestionan con frecuencia. Algunos lo consideran demasiado conservador, y otros demasiado permisivo. Se considera arbitrario (absolutamente cierto), ¡pero eso es algo bueno! Soy defensor de los intervalos de confianza del 95% y los recomiendo como una opción predeterminada sólida.
Hay una razón por la que ha sido el estándar desde el comienzo mismo de la estadística moderna, hace casi 100 años. Y es aún más importante ahora en la era de la experimentación en línea. Compartiré por qué deberías hacer del 95% tu valor predeterminado, y cuándo y cómo ajustarlo.
Este es un término común en experimentación, pero como los valores p, no es intuitivo. Incluso los profesores de estadística de la Ivy League pueden equivocarse. Por definición, un intervalo de confianza del 95% es un rango numérico que, tras muestreos repetidos, contendrá el valor verdadero el 95% de las veces. En la práctica, sirve como:
Un rango de valores plausibles
Una medida de precisión
Un indicador de qué tan repetible/estable es nuestro método experimental
(Estas son interpretaciones técnicamente incorrectas, pero me remito a quienes tienen más educación en este tema.)
Quizás el uso más valioso y correcto de un intervalo de confianza del 95% es como punto de corte para rechazar la hipótesis nula. Esto también se conoce como un nivel de significancia del 5% (100% - 95% = 5%). Tus experimentos arduamente ganados, y a menudo esperanzas y sueños, se convierten instantáneamente en éxitos o fracasos. No hay término medio.
Los intervalos de confianza no distinguen entre un efecto absolutamente nulo (p=1.0) o casos límite (p=0.051). Ambos escenarios llegan a la misma conclusión: no hay un efecto experimental verdadero. La suavidad del error aleatorio se corta bruscamente en una evaluación de sí/no.
Así, si no hubiera un nivel del 5% firmemente establecido, entonces algunas personas estirarían el nivel al 6% o 7% para probar su punto. Pronto otros estarían estirándolo al 10% y 15% y la jerga se volvería sin sentido.
Irwin D. J. Bross
Es esta naturaleza insensible la que hace que los intervalos de confianza del 95% sean tan útiles. Es un guardián estricto que deja pasar la señal estadística mientras filtra mucho ruido. Amortigua los falsos positivos de una manera muy medida e imparcial. Nos protege contra los propietarios de experimentos que son jueces sesgados de su propio trabajo. Incluso con un punto de corte estricto, los autores científicos recurren cómicamente a un lenguaje creativo para colorear resultados límite y convertirlos en algo más.
Pero ¿por qué 95%? Fue establecido por el padre de la estadística moderna, Sir Ronald Fisher. En 1925, Fisher eligió el 95% porque la puntuación z bilateral de 1.96 es casi exactamente 2 desviaciones estándar. Este umbral ha persistido desde entonces durante casi un siglo.
Pero aunque este es un número arbitrario, hay muchas razones para usarlo:
Es imparcial. Usar lo que otros usan es defendible. Has decidido jugar con las mismas reglas con las que juegan otros. Los intentos de cambiar este número (por ejemplo, 90% o 99%) pueden verse como manipulaciones subjetivas de las reglas del experimento. Es como un abogado litigante definiendo qué significa realmente "más allá de toda duda razonable".
Es un estándar razonablemente alto. Representa una probabilidad de 1 en 20 de encontrar un resultado significativo por pura suerte (sin efecto experimental). Esto elimina el 95% de los posibles falsos positivos y sirve como un filtro razonable del ruido estadístico.
Es un estándar razonablemente bajo. En la práctica, es un punto de referencia alcanzable para que la mayoría de los campos de investigación sigan siendo productivos.
Es ubicuo. Asegura que todos hablemos el mismo idioma. Lo que un equipo dentro de tu empresa considera significativo es lo mismo que otro equipo.
Es práctico. Se ha argumentado que dado que p=0.05 sigue siendo la convención, debe ser prácticamente útil. Si fuera demasiado bajo, los investigadores estarían frustrados. Si fuera demasiado alto, tendríamos mucha basura contaminando nuestra investigación. El propio Fisher usó el mismo estándar a lo largo de su carrera sin ajustar esta barra.
Es una elección fácil. Ajustar finamente tu intervalo de confianza de manera defendible e imparcial requiere algo de trabajo. En la mayoría de los casos, es un mejor uso de tu tiempo formular ideas y centrarte en ejecutar experimentos.
Por todas las razones anteriores, recomiendo que la mayoría de los experimentalistas usen el 95% por defecto. Pero hay algunas buenas razones por las que deberías ajustarlo:
Tu perfil de riesgo-beneficio es único. Puedes tener una baja tolerancia a los falsos positivos o falsos negativos. Por ejemplo, las empresas emergentes que tienen una alta tolerancia al riesgo querrán minimizar los falsos negativos seleccionando intervalos de confianza más bajos (por ejemplo, 80% o 90%). Las personas que trabajan en sistemas críticos como la integridad de la plataforma, o medicamentos que salvan vidas, pueden querer minimizar los falsos positivos y seleccionar intervalos de confianza más altos (por ejemplo, 99%).
Tienes la cantidad incorrecta de poder estadístico. Has ejecutado cálculos de poder que no logran producir una estimación razonable del tamaño de la muestra. En algunos casos, tienes muy pocas muestras y puedes hacer ingeniería inversa de tu intervalo de confianza. En otros casos, puedes estar bendecido con demasiadas muestras y puedes permitirte reducir tu tasa de falsos positivos. (¡Este es un problema de big data!)
Seleccionar un intervalo de confianza personalizado implica un equilibrio entre las tasas de falsos positivos y falsos negativos. Bajar el estándar reduciendo tu intervalo de confianza (digamos al 90%) aumentará tu tasa de falsos positivos, pero disminuirá tu tasa de falsos negativos. Esto detectará más efectos reales pero también más ruido estadístico. Ajustar adecuadamente este número significa hacer coincidir tu perfil de riesgo. Hacer esto correctamente requiere sopesar los costos de un falso positivo contra un falso negativo.
Si decides aventurarte por este camino, tengo algunas pautas:
Establece tu umbral de confianza ANTES de recopilar cualquier dato. Los tramposos cambian el intervalo de confianza después de que hay una oportunidad de echar un vistazo.
Intenta reutilizar tu intervalo de confianza personalizado. Es tedioso y potencialmente sesgado hacer esto experimento por experimento. Es mucho más útil identificar un conjunto amplio de situaciones y experimentos donde el nuevo intervalo de confianza debe aplicarse ampliamente.
La mayoría de las personas, especialmente los principiantes en experimentación, deberían quedarse con intervalos de confianza del 95%. Es un valor predeterminado realmente bueno que se aplica a muchas situaciones y que no invita a cuestionamientos adicionales. Pero si insistes en cambiarlo, asegúrate de que coincida con tu situación y perfil de riesgo, y hazlo antes de comenzar el experimento.