Nullius In Verba
  • Comment peut-on savoir si une découverte est vraiment significative ?

    Posté le 9 février 2012

    C’est une question qui se pose avec chaque nouvelle découverte scientifique majeure : qu’est-ce qui rend un résultat suffisamment fiable pour qu’il soit pris au sérieux ? La réponse à cette question a un rapport avec sa signification statistique, mais pas seulement.

    L’unité de mesure habituellement utilisée lorsque l’on parle de signification statistique est l’écart type (déviation standard), qui s’écrit avec la lettre grecque sigma en minuscule (σ). L’écart type mesure la dispersion d’une série de valeurs autour de leur moyenne.

    Dans de nombreuses situations, les résultats d’une expérience suivent ce qu’on appelle une loi normale (distribution normale). Par exemple, si vous lancez une pièce 100 fois et que vous comptez combien de fois elle retombe sur Pile, le résultat moyen devrait être 50. Mais si vous faites ce test 100 fois, la plupart des résultats seront proches de 50, mais pas exactement. Vous obtiendrez presque autant de résultats avec 49 ou 51. Vous aurez quelques 45 ou 55 mais presque pas de 20 ou 80. Si vous reportez ces résultats sur un graphique, vous obtiendrez une forme bien connue appelée courbe de Gauss qui est en forme de cloche. C’est la distribution normale.

    L’écart type permet de connaitre l’éloignement d’un point donné par rapport à la moyenne. Dans l’exemple du Pile ou Face, un résultat de 47 a une déviation de 3 par rapport à la moyenne de 50. L’écart type est la racine carrée de la moyenne des carrés des déviations par rapport à la moyenne. Une déviation standard, 1 sigma, tracé au-dessus ou en dessous de la valeur moyenne sur cette courbe de distribution normale, définirait une région qui inclurait 68% de tous les points de données. 2 sigmas au-dessus ou en dessous incluraient environ 95% des données, et 3 sigma en incluraient 99,7%.

    Quand est-ce qu’un point de données particulier (ou un résultat de recherche) peut-il être considéré comme significatif ? La déviation standard peut nous fournir un critère : si un point de données se trouve à quelques déviations standard du modèle testé, c’est une preuve forte que le point de données n’est pas compatible avec ce modèle. Cependant, la manière d’utiliser ce critère dépend de la situation. John Tsitsiklis (professeur de génie électrique au MIT) qui donne un cours appelé « Fundamentals of Probability » explique « La statistique est un art, avec beaucoup de place pour la créativité et les erreurs ». Une partie de cet art se résume à décider quelles mesures ont du sens dans un cadre donné.

    Par exemple, si vous faites un sondage sur les intentions de vote aux élections, la convention acceptée est que 2 déviations standard au-dessus ou en dessous de la moyenne nous donne un niveau de confiance de 95%, ce qui est raisonnable. Cet intervalle de 2 sigmas est ce à quoi les sondeurs font référence lorsqu’ils parlent de « marge d’erreur d’échantillonnage ».

    Cela signifie que si vous faites un sondage sur une population entière et que vous obtenez une certaine réponse, et posez la même question à un 2ème groupe aléatoire de 1000 personnes, il y a 95% de chance que les résultats du 2ème groupe tombe dans les 2 sigmas du premier résultat. Si un sondage révèle que 55% de la population favorise le candidat A, alors, dans 95% du temps, un 2ème sondage pourrait indiquer un chiffre qui pourrait se situer entre 52 et 58%

    Bien sûr, cela signifie aussi que dans 5% du temps, le résultat serait en dehors de l’intervalle de 2 sigmas. Cette incertitude est correcte pour un sondage d’opinion mais pas pour le résultat d’une expérience cruciale concernant la compréhension d’un phénomène important comme par exemple, l’annonce en automne dernier de la détection de neutrinos qui se déplacent plus vite que la vitesse de la lumière.

    Techniquement, les résultats de cette expérience ont un très haut niveau de confiance : 6 sigmas. Dans la plupart des cas, un résultat de 5 sigmas est considéré comme une preuve suffisamment solide qui correspond à enciron 1 chance sur un million qu’une découverte soit simplement le résultat de variations aléatoires. Ce résultat de 6 sigmas signifie qu’il y a une chance sur 500 millions que la découverte soit un coup de chance.

    Mais, pour cette expérience qui a le potentiel de remettre en question la physique moderne, 6 sigmas n’est pas un résultat suffisant. Pourquoi ? Parce que cela suppose que les chercheurs ont fait une analyse correcte et n’ont pas négligé la source d’une erreur systématique. Le résultat est si inattendu et révolutionnaire que c’est ce que la plupart des physiciens pensent qu’il est arrivé : une source d’erreur non détectée.

    De manière intéressante, d’autres résultats provenant du même accélérateur de particules ont été interprétés assez différemment.

    Une possible détection d’une particule appelée Boson de Higgs a été annoncée en fin d’année dernière. Les résultats avaient un niveau de confiance de seulement 2,3 sigmas, qui correspond à la probabilité d’une chance sur 50 que cela soit du à des erreurs aléatoires (niveau de confiance de 98%). Mais, parce que cela correspond à ce qui est attendu, la plupart des physiciens pensent que ce résultat doit être correct, malgré un niveau de confiance statistique beaucoup plus bas.

    Cela devient encore plus compliqué dans d’autres domaines. Et particulièrement en sciences sociales et sciences médicales, comme l’explique Tsitsiklis. Un article de 2005 intitulé « Why most published research findings are wrong » (Pourquoi la plupart des résultats de recherche publiés sont faux) donne une analyse détaillée d’une variété de facteurs qui pourraient mener à de conclusions injustifiées. Cependant, ces facteurs ne sont pas pris en compte dans les mesures statistiques typiques utilisées, qui incluent la signification statistique.

    L’article souligne que, en regardant de grands ensembles de données de suffisamment de manières différentes, il est facile de trouver des exemples qui passent les critères habituels de signification statistique même si ce ne sont que des variations aléatoires. Rappelez-vous l’exemple du sondage où une fois sur 20 (5%) le résultat tombe aléatoirement en dehors la zone de signification statistique. Même avec un niveau de confiance de 5 sigmas, si un ordinateur parcours des millions de possibilités il découvrira certains motifs totalement aléatoires qui répondent aux critères. Lorsque cela se produit, « vous ne publiez pas ceux qui ne passent pas » le test de signification statistique, mais certaines corrélations aléatoires donneront l’apparence de véritables découvertes. Et vous vous retrouvez à publier des résultats qui relèvent du coup de chance.

    Un exemple : Plusieurs publications des 10 dernières années soutenaient qu’il y avait des corrélations significatives entre certains types de comportements ou processus de pensée et des images du cerveau obtenues grâce à l’imagerie par résonnance magnétique (MRI). Mais ces tests peuvent parfois trouver des corrélations apparentes qui sont seulement le résultat de fluctuations naturelles, ou « bruit », dans le système. En 2009, un chercheur a répété une telle expérience sur la reconnaissance des expressions faciales. Mais au lieu de réaliser cette expérience sur des sujets humains, il avait scanné un poisson mort (et avait obtenu des résultats « significatifs »).

    Si vous regardez à suffisamment d’endroits, vous pouvez obtenir ce genre de résultat de « poisson mort », explique Tsitsiklis. Mais, à l’inverse, un résultat avec une faible signification statistique peut néanmoins soulever quelque chose qui mérite d’être étudié.

    Il faut donc bien garder à l’esprit que ce n’est pas parce qu’un résultat répond à la définition acceptée de la signification statistique que cela en fait un résultat forcément significatif. Tout dépend du contexte.

    Source : MIT


    1 Trackbacks / Pingbacks

    Laisser une réponse