Comprendre le rôle de l'intervalle de confiance à 95 %

Tue Jun 24 2025

Note : Ceci est une traduction française d'un article de blog initialement publié en anglais, que vous pouvez trouver ici : https://statsig.com/blog/95-percent-confidence-interval

L'intervalle de confiance à 95 % domine actuellement l'expérimentation en ligne et scientifique ; cela a toujours été le cas. Pourtant, sa validité et son utilité sont souvent remises en question. Certains le jugent trop conservateur, d'autres trop permissif. Il est considéré comme arbitraire (c'est absolument vrai), mais c'est une bonne chose ! Je suis partisan des intervalles de confiance à 95 % et je les recommande comme valeur par défaut solide.

Il y a une raison pour laquelle c'est la norme depuis le tout début des statistiques modernes, il y a presque 100 ans. Et c'est encore plus important maintenant à l'ère de l'expérimentation en ligne. Je vais partager pourquoi vous devriez faire du 95 % votre valeur par défaut, et quand et comment l'ajuster.

Qu'est-ce qu'un intervalle de confiance à 95 % ?

C'est un terme courant en expérimentation, mais comme les valeurs p, il n'est pas intuitif. Même les professeurs de statistiques de l'Ivy League peuvent se tromper. Selon la définition, un intervalle de confiance à 95 % est une plage numérique qui, lors d'échantillonnages répétés, contiendra la vraie valeur 95 % du temps. En pratique, il sert de :

  • Plage de valeurs plausibles

  • Mesure de précision

  • Indicateur de la répétabilité/stabilité de notre méthode expérimentale

(Ce sont techniquement des interprétations incorrectes, mais je m'en remets à ceux qui sont plus éduqués sur ce sujet.)

L'utilisation la plus précieuse et correcte d'un intervalle de confiance à 95 % est peut-être comme seuil pour rejeter l'hypothèse nulle. C'est également connu sous le nom de niveau de signification de 5 % (100 % - 95 % = 5 %). Vos expériences durement gagnées, et souvent vos espoirs et vos rêves, deviennent instantanément des succès ou des échecs. Il n'y a pas de terrain d'entente.

Les intervalles de confiance ne distinguent pas entre un effet absolument nul (p=1,0) ou les cas limites (p=0,051). Les deux scénarios aboutissent à la même conclusion : il n'y a pas de véritable effet expérimental. La douceur de l'erreur aléatoire est brutalement tranchée en une évaluation oui/non.

Pourquoi les intervalles de confiance à 95 % sont des seuils utiles

Ainsi, s'il n'y avait pas de niveau de 5 % fermement établi, alors certaines personnes étireraient le niveau à 6 % ou 7 % pour prouver leur point. Bientôt, d'autres l'étireraient à 10 % et 15 % et le jargon deviendrait sans signification.

Irwin D. J. Bross

C'est cette nature impitoyable qui rend les intervalles de confiance à 95 % si utiles. C'est un gardien strict qui laisse passer le signal statistique tout en filtrant beaucoup de bruit. Il atténue les faux positifs de manière très mesurée et impartiale. Il nous protège contre les propriétaires d'expériences qui sont des juges biaisés de leur propre travail. Même avec un seuil strict, les auteurs scientifiques recourent comiquement à un langage créatif pour colorer les résultats limites et en faire quelque chose de plus.

Mais pourquoi 95 % ? Il a été fixé par le père des statistiques modernes lui-même, Sir Ronald Fisher. En 1925, Fisher a choisi 95 % parce que le score z bilatéral de 1,96 est presque exactement 2 écarts-types. Ce seuil a depuis persisté pendant presque un siècle.

95 % devrait être votre intervalle de confiance par défaut

Mais même si c'est un nombre arbitraire, il y a de nombreuses raisons de l'utiliser :

  1. C'est impartial. Utiliser ce que les autres utilisent est défendable. Vous avez décidé de jouer selon les mêmes règles que les autres. Les tentatives de changer ce nombre (par exemple, 90 % ou 99 %) peuvent être considérées comme des manipulations subjectives des règles de l'expérience. C'est comme un avocat de procès définissant ce que signifie réellement « au-delà de tout doute raisonnable ».

  2. C'est un seuil raisonnablement élevé. Il représente une chance sur 20 de trouver un résultat significatif par pure chance (sans effet expérimental). Cela élimine 95 % des faux positifs potentiels et sert de filtre raisonnable du bruit statistique.

  3. C'est un seuil raisonnablement bas. En pratique, c'est un repère réalisable pour la plupart des domaines de recherche pour rester productifs.

  4. C'est omniprésent. Cela garantit que nous parlons tous le même langage. Ce qu'une équipe au sein de votre entreprise considère comme significatif est la même chose qu'une autre équipe.

  5. C'est pratique. Il a été soutenu que puisque p=0,05 reste la convention, il doit être pratiquement utile. S'il était trop bas, les chercheurs seraient frustrés. S'il était trop élevé, nous aurions beaucoup de déchets polluant notre recherche. Fisher lui-même a utilisé le même seuil tout au long de sa carrière sans l'ajuster.

  6. C'est un choix facile. Affiner votre intervalle de confiance de manière défendable et impartiale nécessite du travail. Dans la plupart des cas, c'est une meilleure utilisation de votre temps de formuler des idées et de vous concentrer sur la réalisation d'expériences.

Comment choisir un intervalle de confiance personnalisé

Pour toutes les raisons ci-dessus, je recommande à la plupart des expérimentateurs d'utiliser par défaut 95 %. Mais il y a quelques bonnes raisons pour lesquelles vous devriez l'ajuster :

  1. Votre profil risque-bénéfice est unique. Vous pouvez avoir une faible tolérance aux faux positifs ou aux faux négatifs. Par exemple, les startups qui ont une tolérance au risque élevée voudront minimiser les faux négatifs en sélectionnant des intervalles de confiance plus bas (par exemple, 80 % ou 90 %). Les personnes travaillant sur des systèmes critiques comme l'intégrité de la plateforme, ou des médicaments vitaux peuvent vouloir minimiser les faux positifs et sélectionner des intervalles de confiance plus élevés (par exemple, 99 %).

  2. Vous avez la mauvaise quantité de puissance statistique. Vous avez effectué des calculs de puissance qui ne parviennent pas à produire une estimation raisonnable de la taille de l'échantillon. Dans certains cas, vous avez trop peu d'échantillons et pouvez faire de l'ingénierie inverse de votre intervalle de confiance. Dans d'autres cas, vous pouvez avoir la chance d'avoir trop d'échantillons et pouvez vous permettre de réduire votre taux de faux positifs. (C'est un problème de big data !)

Sélectionner un intervalle de confiance personnalisé fait un compromis entre les taux de faux positifs et de faux négatifs. Abaisser la barre en réduisant votre intervalle de confiance (à disons 90 %) augmentera votre taux de faux positifs, mais diminuera votre taux de faux négatifs. Cela détectera plus d'effets réels mais aussi plus de bruit statistique. Ajuster correctement ce nombre signifie correspondre à votre profil de risque. Le faire correctement nécessite de peser les coûts d'un faux positif contre un faux négatif.

Si vous choisissez de vous aventurer sur cette voie, j'ai quelques directives :

  • Définissez votre seuil de confiance AVANT que toute donnée ne soit collectée. Les tricheurs changent l'intervalle de confiance après qu'il y ait une opportunité de jeter un coup d'œil.

  • Essayez de réutiliser votre intervalle de confiance personnalisé. Il est fastidieux et potentiellement biaisé de le faire expérience par expérience. Il est beaucoup plus utile d'identifier un large ensemble de situations et d'expériences où le nouvel intervalle de confiance devrait être largement appliqué.

Conclusion

La plupart des gens, en particulier les débutants en expérimentation, devraient s'en tenir aux intervalles de confiance à 95 %. C'est une très bonne valeur par défaut qui s'applique à de nombreuses situations et qui n'invite pas à des questions supplémentaires. Mais si vous insistez pour le changer, assurez-vous qu'il correspond à votre situation et à votre profil de risque, et faites-le avant de commencer l'expérience.

Recent Posts

We use cookies to ensure you get the best experience on our website.
Privacy Policy