Nota: Esta es una traducción al español de un blog publicado originalmente en inglés, que puedes encontrar aquí: https://statsig.com/blog/how-to-calculate-statistical-significance
Has ejecutado una prueba A/B y los resultados están listos, ¿ahora qué?
Tienes los datos y ahora debes analizar los resultados. Tu objetivo: Determinar si A es diferente de B (una prueba de hipótesis bilateral clásica).
Sin embargo, los datos reales son ruidosos y necesitarás determinar si las diferencias observadas se deben a una diferencia subyacente real o simplemente a ruido estadístico. Calcular la significancia estadística es la forma típica de hacerlo.
La significancia estadística es una verificación de que los resultados que estás viendo no se deben al azar, y que existe una diferencia real entre A y B. Este es un concepto crítico en las pruebas de hipótesis que aplica salvaguardas estadísticas para asegurar que no estés tomando decisiones basadas en ruido aleatorio.
En las pruebas de hipótesis, tenemos un par de hipótesis llamadas la hipótesis nula y la hipótesis alternativa. La hipótesis nula es simplemente:
En una prueba bilateral: No hay diferencia entre A y B, o
En una prueba unilateral: B (Prueba) no es mejor que A (Control).
La hipótesis alternativa es justo lo opuesto: Hay una diferencia entre A y B, o que B es mejor que A. Como no quiero seguir duplicando mis palabras, de aquí en adelante solo me referiré a las pruebas bilaterales.
Las pruebas de hipótesis son la forma en que determinamos cuál hipótesis es correcta.
Queremos recopilar datos y luego determinar si podemos rechazar la hipótesis nula. Si podemos, entonces aceptamos la única hipótesis que queda en pie, la hipótesis alternativa.
La razón por la que tomamos este enfoque enrevesado es que científica y matemáticamente, es más fácil modelar la hipótesis nula y probar que algo es extraño. Modelar la hipótesis alternativa es particularmente desafiante, principalmente porque no está claro qué tan diferente es B de A (¿Cuánto? ¿En qué dirección? ¿Cómo se ve la distribución?).
El umbral para tener evidencia suficiente para rechazar la hipótesis nula se llama significancia estadística. Tus datos son estadísticamente significativos o no lo son. Nos permite tomar una decisión igualmente binaria: ¿Rechazamos la hipótesis nula o no?
Hay otros dos conceptos con los que necesitamos estar familiarizados: el valor p y el intervalo de confianza.
El valor p es la probabilidad de que las diferencias observadas (entre A y B) se deban al azar asumiendo que la hipótesis nula (A es igual a B) es correcta. Un concepto erróneo común es que el valor p es la probabilidad de que la hipótesis nula sea correcta. Esto es incorrecto, y es un tema cubierto extensamente fuera de este artículo.
Un valor p bajo, sin embargo, sí indica que la diferencia observada es poco probable bajo la hipótesis nula. Y si el valor p es menor que nuestro umbral predeterminado para la significancia estadística (por ejemplo, alfa = 0.05), podemos rechazar la hipótesis nula.
Esto nos permite aceptar la hipótesis alternativa y concluir que debe existir realmente una diferencia entre A y B.
Para calcular el valor p, necesitamos calcular el estadístico de prueba apropiado, como un puntaje Z o estadístico T. Esto dependerá del tipo de datos y el tamaño de la muestra. Para probar una hipótesis nula como "no hay diferencia entre A y B", querremos calcular cuál es la diferencia observada entre A y B, comúnmente llamada delta.
También querremos conocer el error estándar para esta diferencia con el fin de tener una idea de su precisión y variabilidad estadística. Un método común es calcular la desviación estándar agrupada de A y B, y luego derivar el error estándar.
Con el delta y el error estándar, podrás calcular el puntaje Z o el estadístico T. Estos valores se corresponderán con un valor p.
Para determinar si el resultado es estadísticamente significativo, compararemos el valor p con nuestro umbral de significancia (es decir, alfa). Si el valor p es menor que alfa, consideramos que los resultados son estadísticamente significativos. De lo contrario, no lo son.
El tamaño de la muestra impacta directamente la confiabilidad de los resultados de tu prueba. Las muestras más grandes generalmente proporcionan datos más confiables, reduciendo el margen de error.
La desviación estándar también impacta la confiabilidad y precisión de nuestros datos. Es una medida de la variabilidad de nuestros datos. Una mayor variabilidad significa que será más difícil medir con precisión A y B. Las métricas que son binomiales (por ejemplo, tasa de conversión) tienden a tener una desviación estándar menor y se usan comúnmente en experimentación.
El tamaño del efecto es la magnitud de la diferencia. Un tamaño de efecto sustancial asegura que los hallazgos no solo sean significativos, sino también fáciles de detectar.
Para tener éxito en las pruebas de hipótesis, generalmente querrás escenarios que tengan un tamaño de efecto grande, un tamaño de muestra grande y una desviación estándar pequeña.