Note : Ceci est une traduction française d'un article de blog initialement publié en anglais, que vous pouvez trouver ici : https://statsig.com/blog/how-to-calculate-statistical-significance
Vous avez mené un test A/B et les résultats sont là, et maintenant ?
Vous avez les données et vous devez maintenant analyser les résultats. Votre objectif : déterminer si A est différent de B (un test d'hypothèse bilatéral classique).
Cependant, les données réelles sont bruitées et vous devrez déterminer si les différences observées sont dues à une vraie différence sous-jacente ou simplement au bruit statistique. Le calcul de la signification statistique est la méthode que nous utilisons généralement pour cela.
La signification statistique est une vérification que les résultats que vous observez ne sont pas dus au hasard, et qu'il existe une vraie différence entre A et B. C'est un concept essentiel dans les tests d'hypothèses qui applique des garde-fous statistiques pour s'assurer que vous ne prenez pas de décisions basées sur du bruit aléatoire.
Dans les tests d'hypothèses, nous avons une paire d'hypothèses appelées l'hypothèse nulle et l'hypothèse alternative. L'hypothèse nulle est simplement :
Dans un test bilatéral : Il n'y a pas de différence entre A et B, ou
Dans un test unilatéral : B (Test) n'est pas meilleur que A (Contrôle).
L'hypothèse alternative est juste l'opposé : Il y a une différence entre A et B, ou B est meilleur que A. Comme je ne veux pas continuer à dupliquer mes mots, je ne vais désormais faire référence qu'aux tests bilatéraux.
Le test d'hypothèse est la façon dont nous déterminons quelle hypothèse est correcte.
Nous voulons collecter des données puis déterminer si nous pouvons rejeter l'hypothèse nulle. Si nous le pouvons, alors nous acceptons la seule hypothèse restante, l'hypothèse alternative.
La raison pour laquelle nous adoptons cette approche alambiquée est que scientifiquement et mathématiquement, il est plus facile de modéliser l'hypothèse nulle et de prouver que quelque chose est étrange. Modéliser l'hypothèse alternative est particulièrement difficile, principalement parce qu'il n'est pas clair à quel point B est différent de A (De combien ? Dans quelle direction ? À quoi ressemble la distribution ?).
Le seuil pour avoir suffisamment de preuves pour rejeter l'hypothèse nulle s'appelle la signification statistique. Vos données sont soit statistiquement significatives, soit elles ne le sont pas. Cela nous permet de prendre une décision tout aussi binaire : rejetons-nous l'hypothèse nulle ou non ?
Il y a deux autres concepts que nous devons connaître : la valeur p et l'intervalle de confiance.
La valeur p est la probabilité que les différences observées (entre A et B) soient dues au hasard en supposant que l'hypothèse nulle (A est identique à B) est correcte. Une idée fausse courante est que la valeur p est la probabilité que l'hypothèse nulle soit correcte. C'est faux, et c'est un sujet largement traité en dehors de cet article.
Une valeur p faible indique cependant que la différence observée est peu probable sous l'hypothèse nulle. Et si la valeur p est inférieure à notre seuil prédéterminé de signification statistique (par exemple, alpha = 0,05), nous pouvons rejeter l'hypothèse nulle.
Cela nous permet d'accepter l'hypothèse alternative et de conclure qu'il doit effectivement y avoir une différence entre A et B.
Pour calculer la valeur p, nous devons calculer la statistique de test appropriée, comme un score Z ou une statistique T. Cela dépendra de votre type de données et de la taille de votre échantillon. Pour tester une hypothèse nulle comme « il n'y a pas de différence entre A et B », nous voudrons calculer quelle est la différence observée entre A et B, communément appelée delta.
Nous voudrons également connaître l'erreur standard pour cette différence afin d'avoir une idée de sa précision et de sa variabilité statistique. Une méthode courante consiste à calculer l'écart-type groupé de A et B, puis à dériver l'erreur standard.
Avec le delta et l'erreur standard, vous pourrez calculer le score Z ou la statistique T. Ces valeurs correspondront à une valeur p correspondante.
Pour déterminer si le résultat est statistiquement significatif, nous comparerons la valeur p avec notre seuil de signification (c'est-à-dire alpha). Si la valeur p est inférieure à alpha, nous considérons que les résultats sont statistiquement significatifs. Sinon, ils ne le sont pas.
La taille de l'échantillon a un impact direct sur la fiabilité de vos résultats de test. Des échantillons plus grands fournissent généralement des données plus fiables, réduisant la marge d'erreur.
L'écart-type affecte également la fiabilité et la précision de nos données. C'est une mesure de la variabilité de nos données. Une plus grande variabilité signifie qu'il sera plus difficile de mesurer avec précision A et B. Les métriques qui sont binomiales (par exemple, le taux de conversion) ont tendance à avoir un écart-type plus faible et sont couramment utilisées dans l'expérimentation.
La taille de l'effet est l'ampleur de la différence. Une taille d'effet substantielle garantit que les résultats sont non seulement significatifs, mais aussi faciles à détecter.
Pour réussir dans les tests d'hypothèses, vous voudrez généralement des scénarios qui ont une grande taille d'effet, une grande taille d'échantillon et un petit écart-type.