Controlando tus errores de tipo I: Bonferroni y Benjamini-Hochberg

Tue Jun 24 2025

Nota: Esta es una traducción al español de un blog publicado originalmente en inglés, que puedes encontrar aquí: https://statsig.com/blog/controlling-type-i-errors-bonferroni-benjamini-hochberg

Todos queremos obtener resultados estadísticamente significativos de nuestros experimentos, pero aún más, queremos estar seguros de que esos resultados son reales.

El Procedimiento de Benjamini-Hochberg ahora está disponible en Statsig como una forma de reducir tus falsos positivos.

Cuantas más hipótesis probemos, más probable es que veamos resultados estadísticamente significativos ocurrir por casualidad, incluso sin ningún efecto subyacente. La Corrección de Bonferroni y el Procedimiento de Benjamini-Hochberg son técnicas diferentes para reducir estos falsos positivos al hacer comparaciones múltiples.

El Procedimiento de Benjamini-Hochberg y la Corrección de Bonferroni te ayudan a evitar lanzar cuando no deberías. El Procedimiento de Benjamini-Hochberg ayuda más cuando hay un gran número de hipótesis que estás probando y quieres una reducción moderada en falsos positivos, mientras que la Corrección de Bonferroni es más conservadora y será más útil cuando hay un número menor de hipótesis siendo probadas concurrentemente.

Bonferroni vs Benjamini-Hochberg

El compromiso fundamental entre no hacer ajustes vs el Procedimiento de Benjamini-Hochberg vs la Corrección de Bonferroni es tu tolerancia al riesgo para errores Tipo I y Tipo II.

La Hipótesis Nula es Falsa

La Hipótesis Nula es Verdadera

Rechazar la Hipótesis Nula

Correcto

Error Tipo I: Falsa Alarma

No Rechazar la Hipótesis Nula

Error Tipo II: Detección Perdida

Correcto

Una explicación más detallada de los Errores Tipo I y Tipo II se puede encontrar aquí.

¿Cuál es peor?

  • (Error Tipo I) Estoy haciendo cambios innecesarios que en realidad no mejoran nuestro producto.

  • (Error Tipo II) Perdí una oportunidad de mejorar nuestro producto porque no detecté una diferencia en mi experimento.

La respuesta va a depender del objetivo de tu equipo, la madurez de tu producto y los recursos que puedas dedicar a implementar y mantener cambios.

Si hay un gran número de hipótesis que quiero probar, entonces usar la Corrección de Bonferroni puede disminuir el poder de mis experimentos muy rápidamente. El procedimiento de Benjamini-Hochberg es menos severo al penalizar comparaciones múltiples, pero a su vez significa que es más probable que cometas errores tipo I que si estuvieras usando la Corrección de Bonferroni.

La Corrección de Bonferroni controla la Tasa de Error Familiar (FWER) mientras que el Procedimiento de Benjamini-Hochberg controla la Tasa de Descubrimiento Falso (FDR).

  • FWER = la probabilidad de cometer cualquier error Tipo I en cualquiera de las comparaciones

  • FDR = la probabilidad de que una hipótesis nula sea verdadera cuando la has rechazado

Para cada evaluación de métrica de una variante vs el control, tenemos:

La Hipótesis Nula es Falsa

La Hipótesis Nula es Verdadera

Rechazar la Hipótesis Nula

Error Tipo I: Falsa Alarma

No Rechazar la Hipótesis Nula

En cualquier experimento en línea, es probable que tengamos más de una métrica y una variante en un experimento dado, por ejemplo:

Generalmente recomendamos el Procedimiento de Benjamini-Hochberg como una medida menos severa que la Corrección de Bonferroni, pero que aún te protege de cierta cantidad de errores Tipo I. Cualquiera que sea la metodología que decidas usar, puedes evaluar tu programa de experimentación basándote en cuántos cambios implementaste según los resultados del experimento, y cómo esos cambios impactaron tu producto (¡los holdouts son una excelente manera de hacer esto!) para determinar si necesitas más o menos controles para prevenir falsos positivos.

Comenzando en Statsig

En la configuración avanzada de cualquier experimento en Statsig, puedes seleccionar si quieres usar la Corrección de Bonferroni o un Procedimiento de Benjamini-Hochberg.

La configuración del Procedimiento de Benjamini-Hochberg se puede encontrar en la Configuración Avanzada de la página de Configuración del Experimento justo debajo de nuestra Configuración de Corrección de Bonferroni.

Esto también se puede configurar en la Política de Experimentos para tu organización, ya sea habilitándolo como predeterminado o requiriendo que se use.

¿Cómo decido # de métricas vs # de variantes vs ambos?

Al igual que con una Corrección de Bonferroni, cuando aplicas el Procedimiento de Benjamini-Hochberg en Statsig puedes decidir si aplicar el método por variante, por métrica o ambos. Esta es una decisión que los experimentadores deben tomar con respecto a penalizar hipótesis distintas.

Variantes: Si estás usando una corrección, generalmente deberías aplicar esa corrección por variante. Cada variante es un tratamiento distinto para los sujetos del experimento y representa una hipótesis distinta.

Métricas: Diferentes métricas podrían usarse ambas como evidencia para una hipótesis o cada una usada para apoyar diferentes hipótesis. Una buena pregunta para hacerte: ¿Cualquiera de tus métricas medidas moviéndose en una dirección positiva significaría que quieres lanzar la función? Si es así, es una buena idea penalizar tu α para múltiples métricas.

Detalles de la metodología

Procedimiento de Benjamini-Hochberg

Comenzamos ordenando los valores p en orden ascendente. Luego calculamos un umbral de la Tasa de Descubrimiento Falso deseada dividida por el número de comparaciones que se están evaluando multiplicado por el rango que tiene un valor p en la lista ordenada. El valor p más grande que es menor que su valor umbral es nuestro nuevo nivel de significancia (α), o el valor umbral más pequeño si ningún valor p es menor que su umbral.

Por ejemplo, si tuvieras los siguientes valores p observados ordenados con FDR <= 0.05

Valor p observado

Umbrales posibles

valor p < Umbral

¿Es estadísticamente significativo?

0.010

0.05/4*1 = 0.0125

verdadero

0.031

0.05/4*2 = 0.0250

falso

0.032

0.05/4*3 = 0.0375

verdadero

0.120

0.05/4*4 = 0.0500

falso

no

Esto significa que nuestro α ajustado = 0.0375

Benjamini-Hochberg basado en # de métricas, # de variantes y # de métricas y variantes

Cuando aplicamos el procedimiento de Benjamini-Hochberg basado en el número de métricas, estamos controlando el FDR usando el método anterior para cada variante independientemente de las otras. De manera similar, cuando aplicamos el procedimiento de Benjamini-Hochberg basado en el número de variantes, controlamos el FDR usando el método anterior para cada métrica independientemente de las otras. Cuando aplicamos el procedimiento de Benjamini-Hochberg basado en el número de métricas y variantes, controlamos el FDR para todo el experimento aplicando el método anterior para todos los valores p para cada métrica y variante juntos.

Por ejemplo, si tuvieras los siguientes valores p observados y estás aplicando Benjamini-Hochberg basado en el número de métricas para cada variante con FDR ≤ 0.05 obtenemos los siguientes resultados:

Variante 1 vs Control

Variante 2 vs Control

Métrica 1

0.043

0.129

Métrica 2

0.049

0.074

Métrica 3

0.042

0.005

Métrica 4

0.037

0.042

α ajustado

0.05

0.0125

Con los mismos datos base, si aplicamos Benjamini-Hochberg basado en el número de variantes para cada métrica con FDR ≤ 0.05 obtenemos los siguientes resultados:

Variante 1 vs Control

Variante 2 vs Control

α ajustado

Métrica 1

0.043

0.129

0.025

Métrica 2

0.049

0.074

0.025

Métrica 3

0.042

0.005

0.025

Métrica 4

0.037

0.042

0.05

Y, si aplicamos Benjamini-Hochberg basado en el número de variantes y métricas con FDR ≤ 0.05 obtenemos los siguientes resultados:

Variante 1 vs Control

Variante 2 vs Control

Métrica 1

0.043

0.129

Métrica 2

0.049

0.074

Métrica 3

0.042

0.005

Métrica 4

0.037

0.042

α ajustado = 0.00625

Recent Posts

We use cookies to ensure you get the best experience on our website.
Privacy Policy