Les résultats ‘marginally significant’ polluent la littérature… analyse de 44 000 valeurs de p

Points clés

APS_Prevalence of marginally significant results 2019

C'est une pratique de certaines disciplines qu'il faudrait absolument décourager. Il s'agit de considérer comme marginalement significatives des valeurs de P entre 0,05 et 0,1 !!!!      Voici le résumé traduit de cet article :

Nous avons examiné le pourcentage des valeurs de p (.05 < p ≤ .10) signalées comme étant marginalement significatives dans 44 200 articles, dans neuf disciplines de psychologie, publiés dans 70 revues de l'American Psychological Association entre 1985 et 2016. En utilisant des expressions régulières, nous avons extrait 42 504 valeurs de p entre 0,05 et 0,10. Près de 40 % des valeurs de p dans cette fourchette ont été signalées comme étant marginalement significatives, bien qu'il y ait eu des différences considérables entre les disciplines. La pratique est la plus courante en psychologie organisationnelle (45,4 %) et la moins courante en psychologie clinique (30,1 %). Contrairement à ce qu'ont déclaré les chercheurs précédents, nos résultats n'ont révélé aucune tendance à la hausse dans aucune discipline ; dans toutes les disciplines, le pourcentage des valeurs de p signalées comme étant marginalement significatives a diminué ou a été constant au fil du temps. Nous déconseillons de présenter ces résultats comme étant marginalement significatifs en raison de la faible valeur probante des valeurs p entre 0,05 et 0,10.

Ces pratiques concourent à la mauvaise reproductibilité des publications.

Le standard 0,05 est déjà considéré comme trop laxiste et des statisticiens proposent d'utiliser un seuil de 0,005 pour que la valeur de P traduise un résultat significatif. D'autres préconisent de ne plus utiliser la significativité statistique, mais plutôt des intervalles de compatibilité.

Partagez cet article sur les réseaux:
Facebook
Twitter
Pinterest
LinkedIn

5 commentaires

  • « Ces pratiques concourent à la mauvaise reproductibilité des publications. »
    Sérieusement? Pourtant, quand je discute avec des psychologues cliniciens et des gens qui ne sont vraiment pas satisfaits du tout du sort qui leur est réservé par la psychologie clinique, il me semble bien que le discours dominant est que la psychologie clinique est un science suffisamment établie et solide pour légitimer des recours à la force drastiques contre les patients récalcitrants.
    Alors je dois penser quoi?

    Répondre
  • Je ne suis pas d’accord : des résultats ne peuvent pas polluer la littérature s’ils sont valides. En particulier, les résultats non significatifs sont aussi intéressants que les autres, voire plus si la puissance est correcte.
    Ce qui « pollue » ce sont les commentaires fallacieux – et bien entendu les études mal conçues ou mal réalisées.
    L’idée de « signification marginale » n’est pas plus stupide que celle de « signification absolue » définie par un « p » arbitrairement fixé à 0,05. Le seuil de 0,001 serait d’ailleurs seulement… moins stupide – mais rien n’est d’ailleurs réellement significatif tant que ce n’est pas reproduit.
    Pierre Rimbaud

    Répondre
  • https://www.psychologicalscience.org/publications/observer/obsonline/rise-in-reporting-p-values-as-marginally-significant.html
    « Pritschet, Powell, and Horne note that the practice of reporting marginally-significant results is problematic for two main reasons. First, the field of psychological science has no agreed-upon standards for how and when results should be reported as marginally significant. The second edition of the American Psychological Association style manual, published in 1974, advised, “Do not infer trends from data that fail by a small margin to reach the usual levels of significance.” This language was soon cut, however, and information about marginal significance has been absent from the manual for over 30 years.
    Potentially more troubling is that reporting of marginally-significant results mixes two types of scientific reasoning: Neyman-Pearson decision theory, which relies on hard cutoffs, and Fisher’s hypothesis testing approach, in which a p value can be considered a measure of evidence. »
    Ce qui contredit quelque peu l’assertion de Pierre Rimbaud: « L’idée de « signification marginale » n’est pas plus stupide que celle de « signification absolue » définie par un « p » arbitrairement fixé à 0,05. ».
    J’espère que ce n’est pas un commentaire trop « fallacieux ».
    Personnellement, ce qui me gêne particulièrement, c’est la façon dont des résultats différents se retrouvent souvent agrégés pour justifier une conclusion qui mécaniquement perd sa force statistique de par le processus même d’agrégation des résultats.
    « mais rien n’est d’ailleurs réellement significatif tant que ce n’est pas reproduit. »
    Pas tout à fait. Il n’y a aucune raison que la reproductibilité de résultats « marginalement significatifs » soit un processus aussi fiable que la reproductibilité de résultats « absolument significatifs ». Je ne fais pas confiance aux médecins ou psychologues pour comprendre ce genre de choses. Embauchez des mathématiciens et des vrais statisticiens pour valider vos intuitions. Des vrais experts, en somme.
    (Parce que certains mathématiciens et statisticiens commencent à s’irriter des utilisations abusives des statistiques.)

    Répondre
  • La valeur de p 0.05. Quand je lis p=0.051 donc il n’y a aucune différence entre les produits (sans bien sur aucune etude d’ésuivalence permettant d’éliminer une différence) on est au mieux dans l’incompétence. Le choix du 0.05 est purement arbitraire et doit etre pris comme tel. Dans certains cas il pourrait etre à 0.00000001, dans d’autre meme si on a 10% de chance que la différence soit liée au hasard, c’est un risque que l’on ne veut pas accepter.
    La dictature du p doit cesser: mettez des valeurs vraies et des intervalles de confiance, qu’au moins on sache la magnitude de l’incertitude!!
    Et que le lecteur puisse faire un choix raisonné de ce qu’il considère comme pertinent ou non.
    D’autant plus que le p ne permet d’affirmer la non-différence, juste qu’on ne peut pas affirmer la différence: absence of evidence is not evidence of absence
    Amities

    Répondre
  • « La dictature du p doit cesser: mettez des valeurs vraies et des intervalles de confiance, qu’au moins on sache la magnitude de l’incertitude!! »
    Effectivement. Il y a un manque de transparence très dommageable. Mais le problème est encore plus profond et est un problème de méthode scientifique: Dès que je lis « H0 », je me dis tout de suite qu’une hypothèse est privilégiée par rapport aux hypothèses concurrentes. C’est souvent une prime à l’immobilisme et au conservatisme, et je serais curieux de connaître les avis des épistémologues d’inspiration popperienne sur cette prime à l’immobilisme et au conservatisme.
    Mais bon, une petite discussion épistémologique basique sur les p-values et les intervalles de confiance s’impose:
    https://meehl.umn.edu/sites/g/files/pua1696/f/169problemisepistemology.pdf

    Répondre

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Articles populaires

Archives mensuelles

Suivez-nous

Newsletter

Inscrivez-vous à notre newsletter mensuelle

Tags

Vous pourriez aussi aimer