Nota: Esta es una traducción al español de un blog publicado originalmente en inglés, que puedes encontrar aquí: https://statsig.com/blog/controlling-type-i-errors-bonferroni-benjamini-hochberg
El Procedimiento de Benjamini-Hochberg ahora está disponible en Statsig como una forma de reducir tus falsos positivos.
Cuantas más hipótesis probemos, más probable es que veamos resultados estadísticamente significativos ocurrir por casualidad, incluso sin ningún efecto subyacente. La Corrección de Bonferroni y el Procedimiento de Benjamini-Hochberg son técnicas diferentes para reducir estos falsos positivos al hacer comparaciones múltiples.
El Procedimiento de Benjamini-Hochberg y la Corrección de Bonferroni te ayudan a evitar lanzar cuando no deberías. El Procedimiento de Benjamini-Hochberg ayuda más cuando hay un gran número de hipótesis que estás probando y quieres una reducción moderada en falsos positivos, mientras que la Corrección de Bonferroni es más conservadora y será más útil cuando hay un número menor de hipótesis siendo probadas concurrentemente.
El compromiso fundamental entre no hacer ajustes vs el Procedimiento de Benjamini-Hochberg vs la Corrección de Bonferroni es tu tolerancia al riesgo para errores Tipo I y Tipo II.
La Hipótesis Nula es Falsa | La Hipótesis Nula es Verdadera | |
Rechazar la Hipótesis Nula | Correcto | Error Tipo I: Falsa Alarma |
No Rechazar la Hipótesis Nula | Error Tipo II: Detección Perdida | Correcto |
Una explicación más detallada de los Errores Tipo I y Tipo II se puede encontrar aquí.
¿Cuál es peor?
(Error Tipo I) Estoy haciendo cambios innecesarios que en realidad no mejoran nuestro producto.
(Error Tipo II) Perdí una oportunidad de mejorar nuestro producto porque no detecté una diferencia en mi experimento.
La respuesta va a depender del objetivo de tu equipo, la madurez de tu producto y los recursos que puedas dedicar a implementar y mantener cambios.
Si hay un gran número de hipótesis que quiero probar, entonces usar la Corrección de Bonferroni puede disminuir el poder de mis experimentos muy rápidamente. El procedimiento de Benjamini-Hochberg es menos severo al penalizar comparaciones múltiples, pero a su vez significa que es más probable que cometas errores tipo I que si estuvieras usando la Corrección de Bonferroni.
La Corrección de Bonferroni controla la Tasa de Error Familiar (FWER) mientras que el Procedimiento de Benjamini-Hochberg controla la Tasa de Descubrimiento Falso (FDR).
FWER = la probabilidad de cometer cualquier error Tipo I en cualquiera de las comparaciones
FDR = la probabilidad de que una hipótesis nula sea verdadera cuando la has rechazado
Para cada evaluación de métrica de una variante vs el control, tenemos:
La Hipótesis Nula es Falsa | La Hipótesis Nula es Verdadera | |
Rechazar la Hipótesis Nula | Error Tipo I: Falsa Alarma | |
No Rechazar la Hipótesis Nula |
En cualquier experimento en línea, es probable que tengamos más de una métrica y una variante en un experimento dado, por ejemplo:
Generalmente recomendamos el Procedimiento de Benjamini-Hochberg como una medida menos severa que la Corrección de Bonferroni, pero que aún te protege de cierta cantidad de errores Tipo I. Cualquiera que sea la metodología que decidas usar, puedes evaluar tu programa de experimentación basándote en cuántos cambios implementaste según los resultados del experimento, y cómo esos cambios impactaron tu producto (¡los holdouts son una excelente manera de hacer esto!) para determinar si necesitas más o menos controles para prevenir falsos positivos.
En la configuración avanzada de cualquier experimento en Statsig, puedes seleccionar si quieres usar la Corrección de Bonferroni o un Procedimiento de Benjamini-Hochberg.
La configuración del Procedimiento de Benjamini-Hochberg se puede encontrar en la Configuración Avanzada de la página de Configuración del Experimento justo debajo de nuestra Configuración de Corrección de Bonferroni.
Esto también se puede configurar en la Política de Experimentos para tu organización, ya sea habilitándolo como predeterminado o requiriendo que se use.
Al igual que con una Corrección de Bonferroni, cuando aplicas el Procedimiento de Benjamini-Hochberg en Statsig puedes decidir si aplicar el método por variante, por métrica o ambos. Esta es una decisión que los experimentadores deben tomar con respecto a penalizar hipótesis distintas.
Variantes: Si estás usando una corrección, generalmente deberías aplicar esa corrección por variante. Cada variante es un tratamiento distinto para los sujetos del experimento y representa una hipótesis distinta.
Métricas: Diferentes métricas podrían usarse ambas como evidencia para una hipótesis o cada una usada para apoyar diferentes hipótesis. Una buena pregunta para hacerte: ¿Cualquiera de tus métricas medidas moviéndose en una dirección positiva significaría que quieres lanzar la función? Si es así, es una buena idea penalizar tu α para múltiples métricas.
Comenzamos ordenando los valores p en orden ascendente. Luego calculamos un umbral de la Tasa de Descubrimiento Falso deseada dividida por el número de comparaciones que se están evaluando multiplicado por el rango que tiene un valor p en la lista ordenada. El valor p más grande que es menor que su valor umbral es nuestro nuevo nivel de significancia (α), o el valor umbral más pequeño si ningún valor p es menor que su umbral.
Por ejemplo, si tuvieras los siguientes valores p observados ordenados con FDR <= 0.05
Valor p observado | Umbrales posibles | valor p < Umbral | ¿Es estadísticamente significativo? |
0.010 | 0.05/4*1 = 0.0125 | verdadero | sí |
0.031 | 0.05/4*2 = 0.0250 | falso | sí |
0.032 | 0.05/4*3 = 0.0375 | verdadero | sí |
0.120 | 0.05/4*4 = 0.0500 | falso | no |
Esto significa que nuestro α ajustado = 0.0375
Cuando aplicamos el procedimiento de Benjamini-Hochberg basado en el número de métricas, estamos controlando el FDR usando el método anterior para cada variante independientemente de las otras. De manera similar, cuando aplicamos el procedimiento de Benjamini-Hochberg basado en el número de variantes, controlamos el FDR usando el método anterior para cada métrica independientemente de las otras. Cuando aplicamos el procedimiento de Benjamini-Hochberg basado en el número de métricas y variantes, controlamos el FDR para todo el experimento aplicando el método anterior para todos los valores p para cada métrica y variante juntos.
Por ejemplo, si tuvieras los siguientes valores p observados y estás aplicando Benjamini-Hochberg basado en el número de métricas para cada variante con FDR ≤ 0.05 obtenemos los siguientes resultados:
Variante 1 vs Control | Variante 2 vs Control | |
Métrica 1 | 0.043 | 0.129 |
Métrica 2 | 0.049 | 0.074 |
Métrica 3 | 0.042 | 0.005 |
Métrica 4 | 0.037 | 0.042 |
α ajustado | 0.05 | 0.0125 |
Con los mismos datos base, si aplicamos Benjamini-Hochberg basado en el número de variantes para cada métrica con FDR ≤ 0.05 obtenemos los siguientes resultados:
Variante 1 vs Control | Variante 2 vs Control | α ajustado | |
Métrica 1 | 0.043 | 0.129 | 0.025 |
Métrica 2 | 0.049 | 0.074 | 0.025 |
Métrica 3 | 0.042 | 0.005 | 0.025 |
Métrica 4 | 0.037 | 0.042 | 0.05 |
Y, si aplicamos Benjamini-Hochberg basado en el número de variantes y métricas con FDR ≤ 0.05 obtenemos los siguientes resultados:
Variante 1 vs Control | Variante 2 vs Control | |
Métrica 1 | 0.043 | 0.129 |
Métrica 2 | 0.049 | 0.074 |
Métrica 3 | 0.042 | 0.005 |
Métrica 4 | 0.037 | 0.042 |
α ajustado = 0.00625