Nota: Esta es una traducción al español de un blog publicado originalmente en inglés, que puedes encontrar aquí: https://statsig.com/blog/stratified-sampling-in-ab-tests
El muestreo estratificado es una técnica utilizada para dividir una población en subgrupos más pequeños y distintos o estratos antes del muestreo. Este método es crucial en las pruebas A/B ya que garantiza que cada subgrupo esté adecuadamente representado, proporcionando así una muestra más precisa e imparcial que refleja la diversidad de toda la población. Para el profesional, esto significa que los falsos positivos aleatorios impulsados por grupos pequeños de usuarios con alto uso son menos probables.
La razón por la cual el muestreo estratificado es tan valioso en las pruebas A/B se reduce a su impacto en la precisión y confiabilidad. El muestreo estratificado reduce la tasa de falsos positivos al hacer cumplir el elemento "idéntico" del supuesto i.i.d. en la experimentación.
Al integrar el muestreo estratificado en tu marco de pruebas A/B, junto con análisis detallados como los que ofrecen la mayoría de las plataformas de experimentación, no solo estarás experimentando; también obtendrás una comprensión precisa de cómo los diferentes segmentos de tu base de usuarios responden a los cambios, permitiendo optimizaciones más dirigidas y efectivas.
Al configurar tus pruebas A/B, elegir los estratos correctos es el primer paso. Piensa en qué factores podrían afectar el resultado: ¿edad, ubicación, frecuencia de uso? Estos son tus estratos.
Aquí te mostramos cómo definir estos elementos cruciales:
Identifica las covariables clave: Examina los datos anteriores para ver qué demografías o comportamientos se relacionan estrechamente con los cambios que estás probando.
Categoriza a tus usuarios: Agrúpalos según estas covariables identificadas. Esto garantiza que cada categoría sea probada.
Habrá compensaciones en el equilibrio. Generalmente, los grupos con un pequeño número de unidades experimentales, pero una gran contribución métrica son los más importantes para equilibrar.
Si tienes dos grupos que contribuyen cada uno con el 50% de tu valor principal, y uno tiene 100,000 usuarios mientras que el otro tiene 10, es mucho más probable que el grupo de 10 termine dividido de manera desigual entre tus grupos experimentales. Si 8 de ellos están en la prueba y 2 en el control, ¡incluso sin efecto del tratamiento reportarías un aumento del 85%! El muestreo estratificado evita que esto ocurra.
Siguiendo estos pasos, estás estableciendo tu prueba A/B sobre una base construida para obtener resultados perspicaces y accionables.
Existen tres métodos comunes de estratificación:
Dentro de tu solución de asignación. Esto se implementa a menudo manteniendo contadores, por estrato, de las asignaciones realizadas hasta el momento y ajustando las tasas de asignación para mantenerlas bajo control a medida que progresa el experimento. Esto funciona para experimentos pequeños o experimentos fuera de línea, pero puede ser desafiante en una plataforma escalada en tiempo real debido al costo y la latencia de buscar estos índices y las asignaciones existentes de un usuario. La mayoría de las plataformas utilizan un algoritmo de hash para asignar determinísticamente a un usuario al mismo grupo sin tener que hacer una búsqueda en la base de datos para visitas posteriores.
Muestreo post-hoc o herramientas como CUPED. Es posible filtrar "usuarios adicionales" en un segmento post-hoc; en el ejemplo anterior, podríamos filtrar aleatoriamente 6 usuarios principales del análisis para equilibrar una comparación 2-2. El costo es perder algunos puntos de datos críticos.
CUPED, si se implementa perfectamente, también puede estratificar funcionalmente tus datos por una covariable. Esto requiere que configures correctamente la regresión de tal manera que tengas una cobertura perfecta de la covariable de estratificación, y que tu algoritmo maneje la regresión categórica sin problemas. Por ejemplo, en la codificación one-hot es común eliminar grupos de baja frecuencia, ¡que podrían ser justo los que te interesan!
Muestreo pre-experimento. Esta es una técnica utilizada por empresas como Statsig para identificar "sales" para usar en un algoritmo de hash que proporcione resultados equilibrados. Al simular diferentes sales y usar una técnica de chi-cuadrado modificada, puedes identificar una aleatorización equilibrada que produzca poblaciones estratificadas.
Se recomienda usar CUPED junto con una de las otras soluciones para garantizar una división justa. Al usar correctamente uno de estos métodos, puedes asegurar que tus pruebas A/B sean tanto eficientes como efectivas, proporcionando información confiable sobre el comportamiento y las preferencias de los usuarios.