Note : Ceci est une traduction française d'un article de blog initialement publié en anglais, que vous pouvez trouver ici : https://statsig.com/blog/controlling-type-i-errors-bonferroni-benjamini-hochberg
La procédure de Benjamini-Hochberg est maintenant disponible sur Statsig comme moyen de réduire vos faux positifs.
Plus nous testons d'hypothèses, plus nous sommes susceptibles de voir des résultats statistiquement significatifs se produire par hasard - même sans effet sous-jacent. La correction de Bonferroni et la procédure de Benjamini-Hochberg sont différentes techniques pour réduire ces faux positifs lors de comparaisons multiples.
La procédure de Benjamini-Hochberg et la correction de Bonferroni vous aident toutes deux à éviter de lancer quand vous ne devriez pas. La procédure de Benjamini-Hochberg est particulièrement utile lorsqu'il y a un grand nombre d'hypothèses à tester et que vous souhaitez une réduction modérée des faux positifs, tandis que la correction de Bonferroni est plus conservatrice et sera plus utile lorsqu'il y a un nombre plus restreint d'hypothèses testées simultanément.
Le compromis fondamental entre aucun ajustement vs la procédure de Benjamini-Hochberg vs la correction de Bonferroni est votre tolérance au risque pour les erreurs de type I et de type II.
Une explication plus approfondie des erreurs de type I et de type II peut être trouvée ici.
Qu'est-ce qui est pire ?
(Erreur de type I) Je fais des changements inutiles qui n'améliorent pas réellement notre produit.
(Erreur de type II) J'ai manqué une opportunité d'améliorer notre produit parce que je n'ai pas détecté de différence dans mon expérience.
La réponse dépendra de l'objectif de votre équipe, de la maturité de votre produit et des ressources que vous pouvez consacrer à la mise en œuvre et au maintien des changements.
S'il y a un grand nombre d'hypothèses que je veux tester, alors utiliser la correction de Bonferroni peut diminuer très rapidement la puissance de mes expériences. La procédure de Benjamini-Hochberg est moins sévère pour pénaliser les comparaisons multiples, mais cela signifie en retour que vous êtes plus susceptible de faire des erreurs de type I que si vous utilisiez la correction de Bonferroni.
La correction de Bonferroni contrôle le taux d'erreur par famille (FWER) tandis que la procédure de Benjamini-Hochberg contrôle le taux de fausses découvertes (FDR).
FWER = la probabilité de faire des erreurs de type I dans n'importe laquelle des comparaisons
FDR = la probabilité qu'une hypothèse nulle soit vraie lorsque vous l'avez rejetée
Dans toute expérience en ligne, nous sommes susceptibles d'avoir plus qu'une seule métrique et une variante dans une expérience donnée.
Nous recommandons généralement la procédure de Benjamini-Hochberg comme mesure moins sévère que la correction de Bonferroni, mais qui vous protège toujours d'une certaine quantité d'erreurs de type I. Quelle que soit la méthodologie que vous décidez d'utiliser, vous pouvez évaluer votre programme d'expérimentation en fonction du nombre de changements que vous avez déployés sur la base des résultats d'expérience, et comment ces changements ont impacté votre produit (les holdouts sont un excellent moyen de le faire !) pour déterminer si vous avez besoin de plus ou moins de contrôles pour prévenir les faux positifs.
Dans les paramètres avancés de toute expérience sur Statsig, vous pouvez sélectionner si vous voulez utiliser la correction de Bonferroni ou une procédure de Benjamini-Hochberg.
Le paramètre de la procédure de Benjamini-Hochberg peut être trouvé dans les paramètres avancés de la page des paramètres d'expérience juste en dessous de nos paramètres de correction de Bonferroni.
Cela peut également être configuré dans la politique d'expérimentation pour votre organisation - soit en l'activant par défaut, soit en exigeant qu'elle soit utilisée.
Comme avec une correction de Bonferroni, lorsque vous appliquez la procédure de Benjamini-Hochberg dans Statsig, vous pouvez décider d'appliquer la méthode par variante, par métrique, ou les deux. C'est une décision que les expérimentateurs devraient prendre en ce qui concerne la pénalisation d'hypothèses distinctes.
Variantes : Si vous utilisez une correction, vous devriez généralement appliquer cette correction par variante. Chaque variante est un traitement distinct pour les sujets de l'expérience et représente une hypothèse distincte.
Métriques : Différentes métriques peuvent être utilisées comme preuves pour une hypothèse ou chacune utilisée pour soutenir différentes hypothèses. Une bonne question à vous poser : Est-ce que n'importe laquelle de vos métriques mesurées évoluant dans une direction positive signifierait que vous voulez déployer la fonctionnalité ? Si oui, c'est une bonne idée de pénaliser votre α pour plusieurs métriques.
Nous commençons par trier les valeurs p par ordre croissant. Nous calculons ensuite un seuil du taux de fausses découvertes souhaité divisé par le nombre de comparaisons évaluées multiplié par le rang d'une valeur p dans la liste ordonnée. La plus grande valeur p inférieure à sa valeur seuil est notre nouveau niveau de signification (α), ou la plus petite valeur seuil si aucune valeur p n'est inférieure à son seuil.
Par exemple, si vous aviez les valeurs p observées triées suivantes avec FDR ≤ 0,05
Cela signifie que notre α ajusté = 0,0375
Lorsque nous appliquons la procédure de Benjamini-Hochberg basée sur le nombre de métriques, nous contrôlons le FDR en utilisant la méthode ci-dessus pour chaque variante indépendamment des autres. De même, lorsque nous appliquons la procédure de Benjamini-Hochberg basée sur le nombre de variantes, nous contrôlons le FDR en utilisant la méthode ci-dessus pour chaque métrique indépendamment des autres. Lorsque nous appliquons la procédure de Benjamini-Hochberg basée sur le nombre de métriques et de variantes, nous contrôlons le FDR pour toute l'expérience en appliquant la méthode ci-dessus pour toutes les valeurs p pour chaque métrique et variante ensemble.
Par exemple, si vous aviez les valeurs p observées suivantes et appliquez Benjamini-Hochberg basé sur le nombre de métriques pour chaque variante avec FDR ≤ 0,05, nous obtenons les résultats suivants :
Avec les mêmes données de base, si nous appliquons Benjamini-Hochberg basé sur le nombre de variantes pour chaque métrique avec FDR ≤ 0,05, nous obtenons les résultats suivants :
Et, si nous appliquons Benjamini-Hochberg basé sur le nombre de variantes et de métriques avec FDR ≤ 0,05, nous obtenons les résultats suivants :
α ajusté = 0,00625