Les résultats ‘marginally significant’ polluent la littérature… analyse de 44 000 valeurs de p

C'est une pratique de certaines disciplines qu'il faudrait absolument décourager. Il s'agit de considérer comme marginalement significatives des valeurs de P entre 0,05 et 0,1 !!!! Voici le résumé traduit de cet article :

Nous avons examiné le pourcentage des valeurs de p (.05 < p ≤ .10) signalées comme étant marginalement significatives dans 44 200 articles, dans neuf disciplines de psychologie, publiés dans 70 revues de l'American Psychological Association entre 1985 et 2016. En utilisant des expressions régulières, nous avons extrait 42 504 valeurs de p entre 0,05 et 0,10. Près de 40 % des valeurs de p dans cette fourchette ont été signalées comme étant marginalement significatives, bien qu'il y ait eu des différences considérables entre les disciplines. La pratique est la plus courante en psychologie organisationnelle (45,4 %) et la moins courante en psychologie clinique (30,1 %). Contrairement à ce qu'ont déclaré les chercheurs précédents, nos résultats n'ont révélé aucune tendance à la hausse dans aucune discipline ; dans toutes les disciplines, le pourcentage des valeurs de p signalées comme étant marginalement significatives a diminué ou a été constant au fil du temps. Nous déconseillons de présenter ces résultats comme étant marginalement significatifs en raison de la faible valeur probante des valeurs p entre 0,05 et 0,10.

Ces pratiques concourent à la mauvaise reproductibilité des publications.

Le standard 0,05 est déjà considéré comme trop laxiste et des statisticiens proposent d'utiliser un seuil de 0,005 pour que la valeur de P traduise un résultat significatif. D'autres préconisent de ne plus utiliser la significativité statistique, mais plutôt des intervalles de compatibilité.

Partagez cet article sur les réseaux:

Herve Maisonneuve

6 commentaires

F68.10 21 juin, 2019

« Ces pratiques concourent à la mauvaise reproductibilité des publications. »
Sérieusement? Pourtant, quand je discute avec des psychologues cliniciens et des gens qui ne sont vraiment pas satisfaits du tout du sort qui leur est réservé par la psychologie clinique, il me semble bien que le discours dominant est que la psychologie clinique est un science suffisamment établie et solide pour légitimer des recours à la force drastiques contre les patients récalcitrants.
Alors je dois penser quoi?

Répondre
Pierre Rimbaud 25 juin, 2019

Je ne suis pas d’accord : des résultats ne peuvent pas polluer la littérature s’ils sont valides. En particulier, les résultats non significatifs sont aussi intéressants que les autres, voire plus si la puissance est correcte.
Ce qui « pollue » ce sont les commentaires fallacieux – et bien entendu les études mal conçues ou mal réalisées.
L’idée de « signification marginale » n’est pas plus stupide que celle de « signification absolue » définie par un « p » arbitrairement fixé à 0,05. Le seuil de 0,001 serait d’ailleurs seulement… moins stupide – mais rien n’est d’ailleurs réellement significatif tant que ce n’est pas reproduit.
Pierre Rimbaud

Répondre
F68.10 28 juin, 2019

https://www.psychologicalscience.org/publications/observer/obsonline/rise-in-reporting-p-values-as-marginally-significant.html
« Pritschet, Powell, and Horne note that the practice of reporting marginally-significant results is problematic for two main reasons. First, the field of psychological science has no agreed-upon standards for how and when results should be reported as marginally significant. The second edition of the American Psychological Association style manual, published in 1974, advised, “Do not infer trends from data that fail by a small margin to reach the usual levels of significance.” This language was soon cut, however, and information about marginal significance has been absent from the manual for over 30 years.
Potentially more troubling is that reporting of marginally-significant results mixes two types of scientific reasoning: Neyman-Pearson decision theory, which relies on hard cutoffs, and Fisher’s hypothesis testing approach, in which a p value can be considered a measure of evidence. »
Ce qui contredit quelque peu l’assertion de Pierre Rimbaud: « L’idée de « signification marginale » n’est pas plus stupide que celle de « signification absolue » définie par un « p » arbitrairement fixé à 0,05. ».
J’espère que ce n’est pas un commentaire trop « fallacieux ».
Personnellement, ce qui me gêne particulièrement, c’est la façon dont des résultats différents se retrouvent souvent agrégés pour justifier une conclusion qui mécaniquement perd sa force statistique de par le processus même d’agrégation des résultats.
« mais rien n’est d’ailleurs réellement significatif tant que ce n’est pas reproduit. »
Pas tout à fait. Il n’y a aucune raison que la reproductibilité de résultats « marginalement significatifs » soit un processus aussi fiable que la reproductibilité de résultats « absolument significatifs ». Je ne fais pas confiance aux médecins ou psychologues pour comprendre ce genre de choses. Embauchez des mathématiciens et des vrais statisticiens pour valider vos intuitions. Des vrais experts, en somme.
(Parce que certains mathématiciens et statisticiens commencent à s’irriter des utilisations abusives des statistiques.)

Répondre
Nicholas moore 30 juin, 2019

La valeur de p 0.05. Quand je lis p=0.051 donc il n’y a aucune différence entre les produits (sans bien sur aucune etude d’ésuivalence permettant d’éliminer une différence) on est au mieux dans l’incompétence. Le choix du 0.05 est purement arbitraire et doit etre pris comme tel. Dans certains cas il pourrait etre à 0.00000001, dans d’autre meme si on a 10% de chance que la différence soit liée au hasard, c’est un risque que l’on ne veut pas accepter.
La dictature du p doit cesser: mettez des valeurs vraies et des intervalles de confiance, qu’au moins on sache la magnitude de l’incertitude!!
Et que le lecteur puisse faire un choix raisonné de ce qu’il considère comme pertinent ou non.
D’autant plus que le p ne permet d’affirmer la non-différence, juste qu’on ne peut pas affirmer la différence: absence of evidence is not evidence of absence
Amities

Répondre
F68.10 07 juillet, 2019

« La dictature du p doit cesser: mettez des valeurs vraies et des intervalles de confiance, qu’au moins on sache la magnitude de l’incertitude!! »
Effectivement. Il y a un manque de transparence très dommageable. Mais le problème est encore plus profond et est un problème de méthode scientifique: Dès que je lis « H0 », je me dis tout de suite qu’une hypothèse est privilégiée par rapport aux hypothèses concurrentes. C’est souvent une prime à l’immobilisme et au conservatisme, et je serais curieux de connaître les avis des épistémologues d’inspiration popperienne sur cette prime à l’immobilisme et au conservatisme.
Mais bon, une petite discussion épistémologique basique sur les p-values et les intervalles de confiance s’impose:
https://meehl.umn.edu/sites/g/files/pua1696/f/169problemisepistemology.pdf

Répondre
French Life Community 16 décembre, 2023

Excellent Article, Excellent Blog , Excellent Site ✅✅✅

Répondre

Laisser un commentaire Annuler la réponse

Articles populaires

S&PS d’avril 2024 : L’expertise judiciaire fait-elle bon ménage avec les données scientifiques ?

25 avril 2024

Recommandations de la Commission européenne pour l’utilisation de l’intelligence artificielle en recherche

24 avril 2024

Déclaration de Barcelone sur l’Information de recherche ouverte : excellent mais est-ce que les signataires s’engagent ?

23 avril 2024

Intelligence artificielle et rédaction : la question n’est pas ‘Faut-il s’y mettre ?’ mais plutôt ‘Quand s’y mettre ?’

22 avril 2024

Archives mensuelles

Inscrivez-vous à notre newsletter mensuelle

COVID-19 : les préprints d’essais cliniques publiés ultérieurement dans des revues à comité de lecture sont un peu améliorés par le peer-review

BMC Methodological Research Methodology a publié début 2024 un bon article de nos collègues du centre d’épidémiologie clinique de l’Hôtel-Dieu, Paris. L’objectif a été de

Les résultats ‘marginally significant’ polluent la littérature… analyse de 44 000 valeurs de p

Partagez cet article sur les réseaux:

Herve Maisonneuve

6 commentaires

Laisser un commentaire Annuler la réponse

Articles populaires

S&PS d’avril 2024 : L’expertise judiciaire fait-elle bon ménage avec les données scientifiques ?

Recommandations de la Commission européenne pour l’utilisation de l’intelligence artificielle en recherche

Déclaration de Barcelone sur l’Information de recherche ouverte : excellent mais est-ce que les signataires s’engagent ?

Intelligence artificielle et rédaction : la question n’est pas ‘Faut-il s’y mettre ?’ mais plutôt ‘Quand s’y mettre ?’

Archives mensuelles

Suivez-nous

Newsletter

Inscrivez-vous à notre newsletter mensuelle

Tags

Vous pourriez aussi aimer

COVID-19 : les préprints d’essais cliniques publiés ultérieurement dans des revues à comité de lecture sont un peu améliorés par le peer-review

Battage médiatique avec un langage promotionnel : interprétation subjective des preuves… pratique fréquente

Qui se préoccupe de la qualité des articles ? Personne ? Sont-ils presque tous mauvais ou faux ?

Est-ce que la plupart des résultats de recherche sont faux ? OUI, OUI mais personne ne s’inquiète

Rédaction Médicale et Scientifique

Les résultats ‘marginally significant’ polluent la littérature… analyse de 44 000 valeurs de p

Partagez cet article sur les réseaux:

Herve Maisonneuve

6 commentaires

Laisser un commentaire Annuler la réponse

Articles populaires

Archives mensuelles

Suivez-nous

Newsletter

Inscrivez-vous à notre newsletter mensuelle

Tags

– –

Vous pourriez aussi aimer