Note : Ceci est une traduction française d'un article de blog initialement publié en anglais, que vous pouvez trouver ici : https://statsig.com/blog/one-tailed-vs-two-tailed-tests
Si vous avez déjà analysé des données en utilisant des fonctions de test t intégrées, comme celles de R ou SciPy, voici une question pour vous : avez-vous déjà ajusté le paramètre par défaut pour l'hypothèse alternative ? Si votre réponse est non — ou si vous n'êtes même pas sûr de ce que cela signifie — alors ce blog est pour vous !
Le paramètre d'hypothèse alternative, communément appelé test « unilatéral » versus « bilatéral » en statistiques, définit la direction attendue de la différence entre les groupes contrôle et traitement.
Dans un test bilatéral, nous évaluons s'il existe une différence dans les valeurs moyennes entre les groupes, sans spécifier de direction. Un test unilatéral, en revanche, pose une direction spécifique — si la moyenne du groupe contrôle est soit inférieure soit supérieure à celle du groupe traitement.
Choisir entre une hypothèse unilatérale et bilatérale peut sembler être un détail mineur, mais cela affecte chaque étape des tests A/B : de la planification du test à l'analyse des données et l'interprétation des résultats. Cet article construit une base théorique sur pourquoi la direction de l'hypothèse est importante et explore les avantages et inconvénients de chaque approche.
Pour comprendre l'importance du choix entre une hypothèse unilatérale et bilatérale, passons brièvement en revue les bases du test t, la méthode couramment utilisée dans les tests A/B. Comme d'autres méthodes de test d'hypothèse, le test t commence par une hypothèse conservatrice : il n'y a pas de différence entre les deux groupes (l'hypothèse nulle). Seulement si nous trouvons des preuves solides contre cette hypothèse pouvons-nous rejeter l'hypothèse nulle et conclure que le traitement a eu un effet.
Mais qu'est-ce qui constitue une « preuve solide » ? À cette fin, une région de rejet est déterminée sous l'hypothèse nulle et tous les résultats qui tombent dans cette région sont jugés si improbables que nous les prenons comme preuve contre la faisabilité de l'hypothèse nulle. La taille de cette région de rejet est basée sur une probabilité prédéterminée, connue sous le nom d'alpha (α), qui représente la probabilité de rejeter incorrectement l'hypothèse nulle.
Qu'est-ce que cela a à voir avec la direction de l'hypothèse alternative ? Beaucoup, en fait. Alors que le niveau alpha détermine la taille de la région de rejet, l'hypothèse alternative dicte son emplacement. Dans un test unilatéral, où nous émettons l'hypothèse d'une direction spécifique de différence, la région de rejet est située dans une seule queue de la distribution.
Pour un effet positif hypothétique (par exemple, que la moyenne du groupe traitement est supérieure à la moyenne du groupe contrôle), la région de rejet se trouverait dans la queue droite, créant un test unilatéral à droite. Inversement, si nous émettons l'hypothèse d'un effet négatif (par exemple, que la moyenne du groupe traitement est inférieure à la moyenne du groupe contrôle), la région de rejet serait placée dans la queue gauche, résultant en un test unilatéral à gauche.
En revanche, un test bilatéral permet la détection d'une différence dans l'une ou l'autre direction, donc la région de rejet est divisée entre les deux queues de la distribution. Cela accommode la possibilité d'observer des valeurs extrêmes dans l'une ou l'autre direction, que l'effet soit positif ou négatif.
Pour développer l'intuition, visualisons comment les régions de rejet apparaissent sous les différentes hypothèses. Rappelons que selon l'hypothèse nulle, la différence entre les deux groupes devrait être centrée autour de zéro. Grâce au théorème central limite, nous savons également que cette distribution approxime une distribution normale. Par conséquent, les zones de rejet correspondant aux différentes hypothèses alternatives ressemblent à cela :
Le choix de la direction pour l'hypothèse alternative impacte l'ensemble du processus de test A/B, en commençant par la phase de planification — spécifiquement, dans la détermination de la taille de l'échantillon.
La taille de l'échantillon est calculée en fonction de la puissance désirée du test, qui est la probabilité de détecter une vraie différence entre les deux groupes lorsqu'elle existe. Pour calculer la puissance, nous examinons la zone sous l'hypothèse alternative qui correspond à la région de rejet (puisque la puissance reflète la capacité de rejeter l'hypothèse nulle lorsque l'hypothèse alternative est vraie).
Puisque la direction de l'hypothèse affecte la taille de cette région de rejet, la puissance est généralement plus faible pour une hypothèse bilatérale. Cela est dû au fait que la région de rejet est divisée entre les deux queues, rendant plus difficile la détection d'un effet dans une direction donnée. Le graphique suivant illustre la comparaison entre les deux types d'hypothèses.
Notez que la zone violette est plus grande pour l'hypothèse unilatérale, comparée à l'hypothèse bilatérale :
En pratique, pour maintenir le niveau de puissance désiré, nous compensons la puissance réduite d'une hypothèse bilatérale en augmentant la taille de l'échantillon (augmenter la taille de l'échantillon augmente la puissance, bien que les mécanismes de cela puissent être un sujet pour un article séparé). Ainsi, le choix entre une hypothèse unilatérale et bilatérale influence directement la taille d'échantillon requise pour votre test.
Au-delà de la phase de planification, le choix de l'hypothèse alternative impacte directement l'analyse et l'interprétation des résultats. Il y a des cas où un test peut atteindre la significativité avec une approche unilatérale mais pas avec une bilatérale, et vice versa.
Revoir le graphique précédent peut aider à illustrer cela : par exemple, un résultat dans la queue gauche pourrait être significatif sous une hypothèse bilatérale mais pas sous une hypothèse unilatérale à droite. Inversement, certains résultats pourraient tomber dans la région de rejet d'un test unilatéral à droite mais se trouver en dehors de la zone de rejet dans un test bilatéral.
Commençons par la conclusion : il n'y a pas de choix absolument bon ou mauvais ici. Les deux approches sont valides, et la considération principale devrait être vos besoins commerciaux spécifiques. Pour vous aider à décider quelle option convient le mieux à votre entreprise, nous allons décrire les principaux avantages et inconvénients de chacune.
À première vue, une alternative unilatérale peut sembler être le choix évident, car elle s'aligne souvent mieux avec les objectifs commerciaux. Dans les applications industrielles, l'accent est généralement mis sur l'amélioration de métriques spécifiques plutôt que sur l'exploration de l'impact d'un traitement dans les deux directions.
Cela est particulièrement pertinent dans les tests A/B, où l'objectif est souvent d'optimiser les taux de conversion ou d'améliorer les revenus. Si le traitement ne conduit pas à une amélioration significative, le changement examiné ne sera pas mis en œuvre.
Au-delà de cet avantage conceptuel, nous avons déjà mentionné un avantage clé d'une hypothèse unilatérale : elle nécessite une taille d'échantillon plus petite. Ainsi, choisir une alternative unilatérale peut économiser à la fois du temps et des ressources. Pour illustrer cet avantage, les graphiques suivants montrent les tailles d'échantillon requises pour des hypothèses unilatérales et bilatérales avec différents niveaux de puissance (alpha est fixé à 5%).
Dans ce contexte, la décision entre une hypothèse unilatérale et bilatérale devient particulièrement importante dans les tests séquentiels — une méthode qui permet une analyse continue des données sans gonfler le niveau alpha. Ici, sélectionner un test unilatéral peut réduire considérablement la durée du test, permettant une prise de décision plus rapide, ce qui est particulièrement précieux dans des environnements commerciaux dynamiques où des réponses rapides sont essentielles.
Cependant, ne soyez pas trop rapide à rejeter l'hypothèse bilatérale ! Elle a ses propres avantages. Dans certains contextes commerciaux, la capacité de détecter des « résultats significatifs négatifs » est un avantage majeur. Comme un client l'a partagé une fois, il préférait les résultats significatifs négatifs aux résultats non concluants parce qu'ils offrent des opportunités d'apprentissage précieuses. Même si le résultat n'était pas celui attendu, il pouvait conclure que le traitement avait un effet négatif et obtenir des insights sur le produit.
Un autre avantage des tests bilatéraux est leur interprétation simple en utilisant des intervalles de confiance (IC). Dans les tests bilatéraux, un IC qui n'inclut pas zéro indique directement la significativité, rendant plus facile pour les praticiens d'interpréter les résultats d'un coup d'œil. Cette clarté est particulièrement attrayante puisque les IC sont largement utilisés dans les plateformes de test A/B. Inversement, avec les tests unilatéraux, un résultat significatif pourrait encore inclure zéro dans l'IC, conduisant potentiellement à de la confusion ou de la méfiance dans les résultats. Bien que des intervalles de confiance unilatéraux puissent être employés avec des tests unilatéraux, cette pratique est moins courante.
En ajustant un seul paramètre, vous pouvez avoir un impact significatif sur vos tests A/B : spécifiquement, la taille d'échantillon que vous devez collecter et l'interprétation des résultats. Lorsque vous décidez entre une hypothèse unilatérale et bilatérale, considérez des facteurs tels que la taille d'échantillon disponible, les avantages de détecter des effets négatifs, et la commodité d'aligner les intervalles de confiance (IC) avec les tests d'hypothèse. En fin de compte, cette décision devrait être prise de manière réfléchie, en tenant compte de ce qui convient le mieux à vos besoins commerciaux.