Nota: Esta es una traducción al español de un blog publicado originalmente en inglés, que puedes encontrar aquí: https://statsig.com/blog/sequential-testing-on-statsig
Recientemente renovamos la metodología de Pruebas Secuenciales de Statsig para permitir decisiones más rápidas. En comparación con nuestra implementación anterior, este nuevo enfoque tiene mayor poder estadístico durante los primeros días del experimento mientras mantiene un límite estricto en la TFP. Esto es ideal para la detección temprana de regresiones o para acortar la duración del experimento cuando la métrica clave tiene un efecto mayor al esperado.
Una preocupación común al ejecutar pruebas A/B en línea es el "problema del vistazo". Este surge cuando las métricas del experimento se monitorean continuamente con la intención de tomar decisiones tempranas de lanzamiento. Esto proviene de una tensión entre dos aspectos de la experimentación en línea:
A diferencia de las pruebas A/B realizadas en campos como la Psicología y las Pruebas de Medicamentos, las plataformas de experimentación en línea de vanguardia utilizan flujos de datos en vivo y pueden mostrar resultados inmediatamente. Estos resultados pueden actualizarse para reflejar las perspectivas más recientes a medida que continúa la recolección de datos. Naturalmente, queremos aprovechar esta poderosa capacidad para tomar las mejores decisiones lo antes posible.
En las pruebas de hipótesis de horizonte fijo, aceptamos una TFP predeterminada, típicamente del 5% (alfa = 0.05). Cuando el valor p es menor que 0.05, es práctica común rechazar la hipótesis nula y atribuir el efecto observado al tratamiento que estamos probando. Hacemos esto sabiendo que hay un 5% de probabilidad de que un resultado estadísticamente significativo sea en realidad solo ruido aleatorio.
Sin embargo, el monitoreo continuo mientras se espera la significancia conduce a un efecto acumulativo del 5% de TFP. Imagina que tienes un dado de 20 caras. Si lo lanzas una vez, tendrás un 5% (1 de 20) de probabilidad de obtener un 1. Pero si lo lanzas todos los días durante una semana, la probabilidad de obtener un 1 al menos una vez es mucho mayor que el 5%. De hecho, ahora has aumentado tus probabilidades al 30%.
En las Pruebas Secuenciales, el cálculo del intervalo de confianza cambia de manera que mantiene el límite superior deseado de falsos positivos independientemente de cuántas veces se evalúe la métrica.
La nueva metodología de Pruebas Secuenciales de Statsig se basa en el enfoque mSPRT (mixture Probability Sequential Ratio Test) descrito por Zhao et al. Esta es una metodología comúnmente utilizada, donde la estadística de prueba se basa en la razón de verosimilitud de las hipótesis nula y alternativa.
Realizamos pruebas exhaustivas, tanto con distribuciones simuladas como con datos de experimentos reales, y encontramos que esto cumple con los criterios deseados para las Pruebas Secuenciales:
La tasa de falsos positivos en las pruebas A/A permanece por debajo del 5% incluso con mediciones repetidas durante un período de 4 semanas.
Cuando existe un efecto real, los resultados estadísticamente significativos a menudo pueden detectarse antes de la duración objetivo del experimento.
En nuestra evaluación, comparamos la nueva metodología mSPRT con nuestro enfoque anterior, así como con la prueba z estándar utilizada en las pruebas de horizonte fijo.
Evaluamos el poder de nuestro método utilizando un corpus de 560 experimentos recientes en Statsig, que incluían casi 2 mil métricas de tablero. El análisis cubrió una amplia gama de métricas de producto de varias industrias (tiempo dedicado, ingresos, tasa de suscripción, latencia, mensajes enviados, retención, etc.). Para cada experimento, la duración objetivo y las métricas del tablero fueron establecidas por el creador del experimento.
Nos enfocamos en las métricas del tablero que fueron estadísticamente significativas basadas en la prueba z de horizonte fijo al final de la duración objetivo. El gráfico a continuación muestra la probabilidad de que las pruebas secuenciales muestren un resultado estadísticamente significativo en función de la duración. Cuando el resultado es estadísticamente significativo, esto significa que el experimento podría detenerse temprano si se utilizan Pruebas Secuenciales.
Nuestro nuevo método tiene una mayor probabilidad de identificar resultados estadísticamente significativos temprano en comparación con el anterior. Esta es una de las razones para lanzar esta actualización: las pruebas secuenciales ofrecen más valor cuando revelan resultados temprano y acortan la duración del experimento.
Vale la pena señalar, sin embargo, que no alcanzamos el mismo nivel de poder al final del experimento. Este es un compromiso del que no podemos escapar al imponer un límite en la TFP. Vale la pena tener esto en cuenta al optar por las Pruebas Secuenciales en lugar de una prueba estándar de horizonte fijo.
Metodología | Poder Relativo a la Prueba de Horizonte Fijo | Probabilidad de Detención Temprana a la Mitad de la Duración Objetivo |
Horizonte fijo | 100% | 0% |
Statsig nuevo (mSPRT) | 84% | 58% |
Statsig v1 | 100% | 33% |
La mejor manera de evaluar la TFP es con pruebas A/A que se espera tengan resultados neutrales. Realizamos 10 mil pruebas A/A simuladas con los siguientes parámetros:
100k usuarios por grupo, inscritos durante el transcurso de 14 días. Esto refleja el patrón común de usuarios que gradualmente se exponen a un experimento durante su duración.
Se generan dos métricas para cada usuario. La primera se extrae de una distribución normal estándar, la segunda de una distribución normal con media de 1 y desviación estándar de 0.1
Los resultados muestran que la TFP para la nueva metodología está seguramente por debajo del 5%. Como era de esperar, la prueba z de horizonte fijo está alrededor del 5%, mientras que la prueba z con vistazo es significativamente mayor (más del 20%). Nuestra metodología anterior no imponía estrictamente un límite en la TFP, y muestra una TFP ligeramente mayor en comparación con la prueba z de horizonte fijo (5.5%), pero aún mucho menor que la prueba z con vistazo.
Metodología | TFP (normal estándar) | TFP (media=1, std=0.1) |
Horizonte fijo | 5.3% | 4.9% |
Statsig nuevo (mSPRT) | 0.4% | 0.2% |
Método antiguo de Statsig | 5.5% | 5.2% |
Prueba Z con vistazo | 20.9% | 21.5% |
También aprovechamos los datos existentes en Statsig para evaluar la TFP de nuestro método con métricas del mundo real. Este es un paso importante porque las métricas que vemos en los experimentos pueden tener distribuciones y tasas de participación diferentes a los conjuntos de datos sintéticos.
Generamos 50 mil pruebas A/A utilizando más de 5 mil métricas de 100 clientes diferentes de varios tamaños. Las pruebas tuvieron una duración de 28 días y evaluaron métricas de tipo ratio y conteo de eventos. Nuevamente, nuestros resultados confirman que la TFP para nuestra metodología mSPRT está consistentemente por debajo del 5%.
Metodología | TFP General | TFP ratio | TFP event_count |
Horizonte fijo | 5.0% | 4.6% | 5.0% |
Statsig nuevo (mSPRT) | 1.1% | 1.1% | 1.2% |
Método antiguo de Statsig | 5.7% | 5.4% | 5.7% |
Prueba Z con vistazo | 17.3% | 20.1% | 17.3% |
El mejor uso de las Pruebas Secuenciales es a menudo en combinación con las pruebas de hipótesis tradicionales con límite de tiempo. Las Pruebas Secuenciales se aprovechan mejor para identificar regresiones o tomar decisiones de lanzamiento basadas en una sola métrica.
La experimentación de productos en Statsig a menudo involucra múltiples métricas de tablero que proporcionan una vista holística del impacto de la prueba. En esos casos, es aconsejable utilizar pruebas de horizonte fijo para obtener el poder estadístico completo en todas las métricas de interés. Algunas ideas a tener en cuenta:
Aunque el "vistazo" a veces está mal visto, el monitoreo temprano de las pruebas es en realidad crítico para obtener el máximo valor de un programa de experimentación. Si un experimento introduce una regresión medible, no hay razón para esperar hasta el final para tomar medidas. Con las pruebas secuenciales, podemos distinguir fácilmente entre el ruido estadístico y los efectos fuertes que son significativos desde el principio.
Otro caso de uso para las Pruebas Secuenciales es cuando hay un costo de oportunidad al ejecutar el experimento durante toda su duración. Por ejemplo, retener una mejora a los usuarios puede tener un costo significativo de ingeniería o negocio, o terminar un experimento temprano puede desbloquear el camino para pruebas adicionales.
Es emocionante ver una métrica objetivo con un efecto estadísticamente significativo temprano. Una palabra de precaución antes de tomar una decisión temprana: aunque una métrica puede alcanzar significancia temprano, otras métricas que parecen neutrales pueden estar aún con bajo poder estadístico.
Incluso cuando todas las métricas de interés se ven excelentes desde el principio, a menudo es aconsejable esperar al menos 7 días completos antes de tomar una decisión. Esto se debe a que muchas métricas se ven afectadas por la estacionalidad semanal cuando los usuarios finales de un producto tienen comportamientos diferentes según el día de la semana.
Si es importante una buena estimación del tamaño del efecto, considera ejecutar el experimento hasta su finalización. Por un lado, los intervalos de confianza ajustados de las Pruebas Secuenciales son más amplios, por lo que el rango de valores probables es mayor al tomar una decisión temprana (menor precisión). Además, es más probable que un efecto medido mayor sea estadísticamente significativo temprano, incluso si el efecto verdadero es en realidad menor.
Tomar decisiones tempranas rutinariamente basadas en resultados positivos estadísticamente significativos podría llevar a sobreestimar sistemáticamente el impacto de los experimentos lanzados (menor exactitud).
Las pruebas secuenciales permiten el monitoreo continuo de los resultados experimentales sin inflar la Tasa de Falsos Positivos.
Es una herramienta poderosa para identificar regresiones temprano y reducir su impacto en el producto. Dicho esto, viene con una reducción general en el poder estadístico en comparación con las pruebas de horizonte fijo. Por lo tanto, recomendamos utilizar este método para decisiones tempranas de lanzamiento solo cuando hay una única métrica de interés para el experimento.