Pourquoi la plupart des résultats publiés sont faux

Author

Published on 04.04.2020 - Updated on 04.04.2020
Original translation
Originally published in PLoS Medicine 30.08.2005
Cite

Version 1.0.4 (5 versions)

Version

Corrections mineures

Licence

cc by - Attribution alone 4.0

Conflicts of interest

The author does not declare any conflict of interest.

Translation

James CAINE

abstract

La plupart des résultats publiés sont faux, ce qui provoque une inquiétude croissante dans le monde de la recherche. La probabilité qu'un résultat publié soit vrai dépend d'une quantité d'éléments : la puissance statistique, l'existence de biais, le nombre d'autres études portant sur la même question ou encore le rapport entre les relations vraies et non vraies parmi les relations examinées dans le domaine scientifique en question. Dans le cadre que je propose, un résultat est moins susceptible d'être vrai dans les hypothèses suivantes : 1) lorsque les études menées dans un domaine portent sur de plus petits échantillons ; 2) lorsque la taille d'effet est plus petite ; 3) lorsqu'il y a un plus grand nombre de relations testées et moins de présélection ; 4) lorsqu'il y a plus de souplesse dans la conception des études, les définitions employées, l'issue examinée et les modalités analytiques ; 5) lorsque les intérêts en jeu, qu'ils soient financiers ou autres, sont plus grands ; 6) lorsque le domaine en question fait appel à un nombre plus important d'équipes. Des simulations montrent que, pour la plupart des types de recherche et des contextes, il est plus probable qu'un résultat publié soit faux plutôt que vrai. De plus, pour de nombreux domaines scientifiques actuels, les résultats revendiqués peuvent souvent n'être que de simples mesures précises du biais dominant. Pour finir, je discute des implications de ces problèmes pour la conduite et l'interprétation de la recherche.

Buildings with tiled exteriors, lit by the sunset.

Il n'est pas rare que des résultats de recherche publiés soient rapidement réfutés par des publications subséquentes, ce qui conduit les scientifiques à la confusion et la déception. La réfutation et la controverse sont omniprésentes dans tous les types de recherche, que ce soit les démarches traditionnelles tels que les essais cliniques ou les études épidémiologiques (Ioannidis, Haidich et Lau, 2001; Lawlor et al., 2004; Vandenbroucke, 2004) ou les courants plus modernes comme la recherche moléculaire (Ioannidis et al., 2001; Michiels, Koscielny et Hill, 2005). On s'inquiète de plus en plus du fait que, dans la recherche biomédicale actuelle, les fausses conclusions peuvent représenter la majorité, voire la vaste majorité, des résultats publiés (Colhoum, McKeigue et Davey Smith, 2003; Ioannidis, 2003; Ioannidis, 2005). L'ambition de cet article est de montrer que tout cela ne devrait pas être surprenant : il est même possible de prouver que la plupart des résultats publiés sont faux. J'examinerai ici les facteurs clés qui influencent ce problème et certains de leurs corollaires.

Modèle de départ

Plusieurs travaux de méthodologie (Sterne et Davey Smith, 2001; Wacholder et al., 2004; Risch, 2000) ont souligné que le taux élevé de non-réplication des résultats scientifiques est la conséquence directe de l'usage courant et relativement commode, mais épistémologiquement infondé, d'un raccourci qui consiste à revendiquer comme "concluant" les résultats d'une seule étude, du moment qu'ils sont statistiquement significatifs, généralement pour une valeur-p inférieure à 0,05. La valeur-p n'est pas la façon la plus appropriée de représenter ou de résumer la recherche inférentielle, mais, malheureusement, il existe une croyance très répandue, au moins dans la recherche biomédicale, selon laquelle les résultats d'une étude doivent être interprétés en fonction des valeurs-p, et de ces valeurs seulement. J'entends ici par "résultat" toute relation pouvant être dite statistiquement significative : efficacité d'une intervention, prédicteurs d'une information, facteurs de risque ou associations entre variables. La recherche "négative" est également très utile, mais il n'en sera pas question ici ("négatif" est d'ailleurs un terme trompeur et généralement mal interprété) : nous parlerons seulement ici des relations que les enquêteurs prétendent identifier, et non des conclusions dites "nulles".

Des travaux antérieurs ont montré que la probabilité qu'un résultat donné soit effectivement "vrai" dépend d'une part de la probabilité qu'il soit vrai avant de conduire l'étude, d'autre part de la puissance statistique de l'étude et de son niveau de significativité statistique (Wacholder et al., 2004; Risch, 2000). Imaginons un tableau à double entrée dans lequel les résultats publiés sont comparés à un standard de référence hypothétique d'étude parfaite (l'étalon-or) permettant de prétendre qu'une relation est vraie dans un domaine scientifique donné. Dans un champ de recherche donné, on peut faire des hypothèses vraies et fausses sur la présence de relations. Soit R le rapport entre le nombre de "vraies relations" et le nombre de "pas de relations" parmi celles testées dans le champ. R est caractéristique du champ et peut grandement varier selon que le champ cible des relations très probables ou qu'il ne recherche qu'une ou quelques relations réelles parmi des milliers et des millions d'hypothèses qui peuvent être postulées. Considérons aussi, par souci de simplicité de calcul, les champs circonscrits où il n'y a qu'une seule vraie relation (parmi beaucoup d'autres qui peuvent être supposées) où la puissance est similaire pour trouver l'une des nombreuses vraies relations existantes. La probabilité qu'une relation soit vraie avant l'étude est R/(R + 1). La probabilité qu'une étude trouve une vraie relation reflète une puissance de 1 - β (un moins le taux d'erreur de type II). La probabilité de "trouver" une relation lorsqu'il n'en existe en fait aucune reflète le taux d'erreur de type I (α). En supposant que l'on sonde c relations dans le champ, les valeurs attendues du tableau 2 × 2 sont données dans le tableau 1. Après qu'un résultat de recherche a été revendiqué sur la base de l'obtention d'une significativité statistique, la probabilité post-étude qu'il soit effectivement "vrai" est ce qu'on appelle la valeur prédictive positive (VPP). La VPP est aussi la probabilité complémentaire de ce que Wacholder et al. ont appelé la probabilité de rapport faussement positif (Wacholder et al., 2004). Selon le tableau 2 × 2, on obtient VPP= (1 - β)R/(R - βR + α). Un résultat de recherche est donc plus vraisemblablement vrai que faux si (1 - β)R > α. Étant donné que la grande majorité des chercheurs emploient le seuil de 0,05, cela signifie qu'un résultat de recherche est plus probablement vrai que faux si (1 - β)R > 0,05.

RésultatRelation vraie
ouinontotal
ouic(1 - β)R/(R+1)cα/(R+1)c(R+α-βR)/(R+1)
noncβR/(R+1)c(1-α)/(R+1)c(1-α+βR)/(R+1)
totalcR/(R+1)c/(R+1)c
Résultats de la recherche et relations réelles

Ce modèle qui me sert de point de départ commence à être bien compris et débattu dans la littérature, mais deux phénomènes contribuant également à affaiblir la VPP sont moins connus : 1) le biais et 2) la pluralité d'équipes indépendantes travaillant sur le même problème. Nous essaierons de modéliser l'effet de ces deux facteurs en employant la même méthode.

Modéliser le biais

Premièrement, définissons le biais comme la combinaison de divers facteurs de conception, de choix de données, d'analyse et de présentation qui tendent à produire des résultats de recherche alors qu'ils ne devraient pas être produits. Soit u la proportion d'analyses approfondies qui n'auraient pas été des "résultats de recherche", mais qui finissent néanmoins par être présentées et rapportées comme telles, en raison du biais. Il ne faut pas confondre le biais avec la variabilité aléatoire qui fait que certaines constatations sont fausses par hasard, même si la conception, les données, l'analyse et la présentation de l'étude sont parfaites. Le biais peut provenir d'une manipulation dans l'analyse ou dans la communication des résultats. Les signalements sélectifs ou déformés des résultats sont une forme typique de ce biais. On peut supposer que u ne dépend pas de l'existence ou non d'une véritable relation. Cette hypothèse n'est pas déraisonnable, car il est généralement impossible de savoir quelles relations sont vraies.

En présence d'un biais (tableau 2), on obtient la VPP = ([1 - β]R + uβR)/(R + α - βR + u- uα + uβR), et la VPP diminue avec l'augmentation de u, à moins que 1 - β ≤ α, c'est-à-dire 1 - β ≤ 0,05 dans la plupart des situations. Ainsi, avec l'augmentation du biais, les chances qu'un résultat de recherche soit vrai diminuent considérablement.

Inversement, les vrais résultats de recherche peuvent parfois être annulés en raison d'un biais inverse. Par exemple, dans le cas d'erreurs de mesure importantes, les relations sont perdues dans le bruit (Kelsey et al., 1996), ou les enquêteurs utilisent les données de façon inefficace ou ne remarquent pas les relations statistiquement significatives, ou il peut y avoir des conflits d'intérêts qui ont tendance à "cacher" les résultats significatifs (Topol, 2004). Il n'existe pas de données empiriques fiables à grande échelle sur la fréquence à laquelle un tel biais inverse peut se produire dans divers domaines de recherche. Toutefois, il est probablement juste de dire que le biais inverse n'est pas aussi courant. De plus, les erreurs de mesure et l'utilisation inefficace des données deviennent probablement des problèmes moins fréquents, puisque les erreurs de mesure ont diminué avec les progrès technologiques de l'ère moléculaire et que les chercheurs sont de plus en plus sophistiqués dans leurs données. Quoi qu'il en soit, le biais inverse peut être modélisé de la même manière que le biais ci-dessus. Il ne faut pas non plus confondre le biais inverse avec la variabilité fortuite qui peut mener à l'absence d'une véritable relation en raison du hasard.

RésultatRelation vraie
ouinontotal
oui(c[1 - β]R+ucβR)/(R+1)cα+uc(1-α)/(R+1)c(R+α-βR+u-uα+uβR)/(R+1)
non(1-u)R/(R+1)(1-u)c(1-α)/(R+1)c(1-u)(1-α+βR)/(R+1)
totalcR/(R+1)c/(R+1)c
Résultats de la recherche et relations réelles en présence de biais

Modéliser la pluralité d'équipes indépendantes

Plusieurs équipes indépendantes peuvent s'attaquer aux mêmes questions de recherche. Comme les efforts de recherche sont mondialisés, il est pratiquement de règle que plusieurs équipes de recherche, souvent des douzaines d'entre elles, sondent les mêmes questions ou des questions similaires. Malheureusement, dans certains domaines, la mentalité qui prévaut jusqu'à présent est de mettre l'accent sur les découvertes isolées faites par des équipes individuelles et d'interpréter les expériences de manière isolée. Pour de plus en plus de questions, il existe au moins une étude prétendant avoir obtenu un résultat de recherche, étude qui fait alors l'objet d'une attention unilatérale.

Il est facile d'estimer la probabilité qu'au moins une étude parmi un ensemble donné d'études indépendantes revendique un résultat de recherche statistiquement significatif. Pour n études indépendantes de puissance égale, le modèle est présenté au tableau 3 : VPP = R(1 - βn)/(R + 1 -[1 - α]n - Rβn) (sans tenir compte du biais). Avec l'augmentation du nombre d'études indépendantes, la VPP tend à diminuer, à moins que 1 - β < a, c'est-à-dire généralement 1 - β < 0,05.

RésultatRelation vraie
ouinontotal
ouicR(1 - β^n)/(R+1)c(1-[1-α]^n)/(R+1)c(R+1-[1-α]^n-Rβ^n)/(R+1)
noncRβ^n/(R+1)c(1-α)^n/(R+1)c(1-α+Rβ)/(R+1)
totalcR/(R+1)c/(R+1)c
Résultats de la recherche et relations réelles en présence de multiples équipes indépendantes

Corollaires

Un exemple pratique est présenté dans l'encadré 1. Sur la base des considérations qui précèdent, on peut déduire plusieurs corollaires intéressants sur la probabilité qu'un résultat de recherche soit effectivement vrai.

Supposons qu'une équipe de chercheurs effectue une étude d'association génomique complète pour vérifier si l'un des 100 000 polymorphismes génétiques est associé à la susceptibilité à la schizophrénie. D'après ce que nous savons de l'hérédité de la maladie, il est raisonnable de s'attendre à ce qu'une dizaine de polymorphismes génétiques parmi les personnes testées soient réellement associés à la schizophrénie, avec des odd ratio relativement similaires, autour de 1,3 pour la dizaine de polymorphismes et avec un pouvoir assez similaire pour en identifier un. Alors R = 10/100 000 = 10^-4, et la probabilité avant l'étude que tout polymorphisme soit associé à la schizophrénie est aussi R/(R + 1) = 10^-4. Supposons également que l'étude ait 60 % de pouvoir pour trouver une association avec un odds ratio de 1,3 à α = 0,05. On peut alors estimer que si une association statistiquement significative est trouvée avec la valeur-p qui dépasse à peine le seuil de 0,05, la probabilité post-étude que ce soit vrai augmente d'environ 12 fois par rapport à la probabilité pré-étude, mais elle n'est toujours que de 12 × 10^-4. Supposons maintenant que les investigateurs manipulent leur conception, leurs analyses et leurs rapports de manière à ce que davantage de relations franchissent le seuil p = 0,05 même si cela n'aurait pas été le cas avec une conception et une analyse parfaitement respectées et un rapport parfait et complet des résultats, strictement selon le plan d'étude original. Une telle manipulation pourrait se faire, par exemple, par l'inclusion ou l'exclusion fortuite de certains patients ou témoins, par des analyses post hoc de sous-groupes, par l'étude de contrastes génétiques qui n'étaient pas spécifiés à l'origine, par des changements dans les définitions de la maladie ou des témoins et par diverses combinaisons de rapports sélectifs ou distorsifs des résultats. Les progiciels de "data mining" disponibles sur le marché sont même fiers de leur capacité à produire des résultats statistiquement significatifs grâce au dragage des données. En présence d'un biais avec u = 0,10, la probabilité qu'un résultat de recherche soit vrai après l'étude est seulement de 4,4 × 10-4. De plus, même en l'absence de tout biais, lorsque dix équipes de recherche indépendantes effectuent des expériences similaires dans le monde, si l'une d'entre elles trouve une association statistiquement significative, la probabilité que le résultat de la recherche soit vrai n'est que de 1,5 × 10-4, à peine plus élevée que la probabilité que nous avions avant que cette recherche approfondie ne soit entreprise !

- Un exemple : La science à faible probabilité avant l'étude

Corollaire 1 : Plus les études menées dans un domaine scientifique portent sur de petits échantillons, moins il est probable que les résultats publiés soient vrais. La petite taille de l'échantillon signifie une puissance plus faible et, pour toutes les fonctions ci-dessus, la VPP d'un vrai résultat de recherche diminue à mesure que la puissance diminue vers 1 - β = 0,05. Ainsi, toutes choses étant égales par ailleurs, les résultats de la recherche sont plus susceptibles d'être vrais dans les domaines scientifiques où sont réalisées des études de grande envergure, comme les essais contrôlés randomisés en cardiologie qui portent généralement sur plusieurs milliers de sujets randomisés (Yusuf, Collins et Peto, 1984), que dans les domaines scientifiques où sont publiées de petites études, comme la plupart des recherches sur les prédicteurs moléculaires, dont la taille est en moyenne cent fois inférieure (Altman et Royston, 2000).

Corollaire 2 : Plus les tailles d'effet sont faibles dans un domaine scientifique, moins il est probable que les résultats publiés soient vrais. La puissance est également liée à la taille d'effet. Ainsi, les résultats publiés sont davantage susceptibles d'être vrais dans les domaines scientifiques ayant des effets importants, comme l'impact du tabagisme sur le cancer ou les maladies cardiovasculaires (risques relatifs 3-20), que dans les domaines scientifiques où les effets postulés sont faibles, comme les facteurs de risque génétiques des maladies multigéniques (risques relatifs 1.1-1.5) (Ioannidis, 2003). L'épidémiologie moderne est de plus en plus obligée de cibler des tailles d'effet plus petites (Taubes, 1995). Par conséquent, on s'attend à ce que la proportion de vrais résultats publiés diminue. Dans le même ordre d'idées, si les valeurs réelles de l'effet sont très faibles dans un domaine scientifique donné, ce domaine est susceptible d'être en proie à des prétentions erronées quasi-omniprésentes. Par exemple, si la majorité des véritables déterminants génétiques ou nutritionnels des maladies complexes présentent des risques relatifs inférieurs à 1,05, l'épidémiologie génétique ou nutritionnelle est une entreprise largement utopique.

Corollaire 3 : Plus le nombre de relations testées dans un domaine scientifique est élevé et moins la sélection des relations testées est importante, moins les résultats publiés sont susceptibles d'être vrais. Comme nous l'avons vu plus haut, la probabilité qu'un résultat soit vrai après l'étude (VPP) dépend grandement des odds ratio avant l'étude (R). Par conséquent, les résultats publiés sont davantage susceptibles d'être vrais dans les plans de sondage de confirmation, comme les grands essais contrôlés randomisés de phase III, ou les méta-analyses de ceux-ci, que dans les expériences génératrices d'hypothèses. Les domaines considérés comme hautement informatifs et créatifs étant donné la richesse de l'information recueillie et testée, tels que les micro-réseaux et autres recherches à haut débit axées sur la découverte (Ioannidis, 2005; Golub et al., 1999; Michiels, Koscielny et Hill, 2005), devraient avoir un VPP extrêmement faible.

Corollaire 4 : Plus la conception, les définitions, les résultats et les modes d'analyse d'un domaine scientifique sont souples, moins les résultats de la recherche ont de chances d'être vrais. La souplesse augmente le potentiel de transformation de ce qui serait des résultats "négatifs" en résultats "positifs", c.-à-d. des biais, u. Pour plusieurs modèles de recherche, p. ex. les essais contrôlés randomisés (Moher, Schluz et Altman, 2001; Ioannidis et al., 2004; Int. Conf. On Harmonisation, 1999) ou les méta-analyses (Moher et al., 1999; Stroup et al., 2000), on a tenté de normaliser leur conduite et la production des rapports. L'adhésion à des normes communes est susceptible d'accroître la proportion de vrais résultats. Il en va de même pour les issues. Les résultats vrais seront plus courants lorsque les issues sont sans équivoque et universellement acceptées (p. ex., la mort) plutôt que lorsqu'on conçoit des résultats multiples (p. ex., des échelles pour les résultats de la schizophrénie) (Marshall et al., 2000). De même, les champs qui utilisent des méthodes d'analyse stéréotypées et d'un commun accord (p. ex. les diagrammes de Kaplan-Meier et le test du logarithme) (Altman et Goodman, 1994) peuvent donner une plus grande proportion de vrais résultats que les champs où les méthodes d'analyse sont encore à l'essai (p. ex. les méthodes d'intelligence artificielle) et seuls les " meilleurs " résultats sont présentés. Quoi qu'il en soit, même dans les modèles de recherche les plus rigoureux, les biais semblent constituer un problème majeur. Par exemple, il y a des preuves solides que la production de rapports sélectifs sur les résultats, avec manipulation des résultats et des analyses rapportés, est un problème commun même pour les sentiers randomisés (Chan et al., 2004). Le simple fait d'abolir la publication sélective ne ferait pas disparaître ce problème.

Corollaire 5 : Plus les conflits d'intérêts financiers et idéologiques dans un domaine scientifique sont importants, moins les résultats publiés sont susceptibles d'être vrais. Les conflits d'intérêts financiers et idéologiques (on entends par conflit d'intérêt idéologique les a priori et préjugés sur le "bon" résultat à obtenir) peuvent accroître les biais, u. Les conflits d'intérêts sont très fréquents dans la recherche biomédicale (Krimsky et al., 1998), et ils sont généralement signalés de façon insuffisante et rare (Krimsky et al., 1998; Papanikolaou et al., 2001). Les préjugés n'ont pas nécessairement des racines financières. Les scientifiques d'un domaine donné peuvent subir des préjugés uniquement parce qu'ils croient en une théorie scientifique ou parce qu'ils sont attachés à leurs propres découvertes. Beaucoup d'études universitaires apparemment indépendantes peuvent être menées pour la seule raison de donner aux médecins et aux chercheurs les qualifications nécessaires pour obtenir une promotion ou une titularisation. De tels conflits non-financiers peuvent également donner lieu à des résultats et à des interprétations faussés. Des chercheurs ayant acquis un certain prestige symbolique peuvent utiliser leur fonction d'évaluateur externe dans une revue pour atteindre à la diffusion de résultats qui réfutent leurs conclusions, condamnant ainsi leur domaine à perpétuer un faux dogme. Les éléments empiriques dont nous disposons sur les opinions d'experts montrent que ces opinions sont extrêmement peu fiables (Antman et al., 1992).

Corollaire 6 : Plus un domaine scientifique est exploré par un grand nombre d'équipes indépendantes, moins les résultats de la recherche ont de chances d'être vrais. Ce corollaire apparemment paradoxal s'ensuit parce que, comme nous l'avons dit plus haut, la VPP des résultats isolés diminue lorsque plusieurs équipes de chercheurs travaillent dans le même domaine. C'est peut-être pour cette raison que l'on assiste parfois à une grande excitation suivie rapidement de graves déceptions dans des domaines qui attirent l'attention du grand public. Avec de nombreuses équipes travaillant sur le même domaine et avec des données expérimentales massives en cours de production, la course contre la montre est essentielle pour battre la concurrence. Ainsi, chaque équipe peut donner la priorité à la poursuite et à la diffusion de ses résultats "positifs" les plus impressionnants. Les résultats "négatifs" peuvent devenir attrayants pour la diffusion seulement si une autre équipe a trouvé une association "positive" sur la même question. Dans ce cas, il peut être intéressant de réfuter une affirmation faite dans une revue prestigieuse. Le terme d'effet Proteus a été inventé pour décrire ce phénomène d'alternance rapide d'allégations extrêmes de recherche et de réfutations extrêmement opposées (Ioannidis et Trikalinos, 2005). Des preuves empiriques suggèrent que cette séquence d'opposés extrêmes est très courante en génétique moléculaire (Ioannidis et Trikalinos, 2005).

Ces corollaires tiennent compte de chaque facteur séparément, mais ces facteurs s'influencent souvent les uns les autres. Par exemple, les chercheurs qui travaillent dans des domaines où l'ampleur réelle de l'effet est perçue comme étant faible peuvent être plus susceptibles d'effectuer de grandes études que ceux qui travaillent dans des domaines où l'ampleur réelle de l'effet est perçue comme étant importante. Ou encore, des préjugés peuvent prévaloir dans un domaine scientifique brûlant, sapant encore davantage la valeur prédictive des résultats de ses recherches. Des parties prenantes fortement influencées par des préjugés peuvent même créer un obstacle qui fait avorter les efforts visant à obtenir et à diffuser des résultats contradictoires. Inversement, le fait qu'un domaine soit "chaud" ou qu'il ait de forts intérêts investis peut parfois favoriser la réalisation d'études de plus grande envergure et l'amélioration des normes de recherche, améliorant ainsi la valeur prédictive des résultats de ses recherches. Ou encore, des essais massifs axés sur la découverte peuvent donner lieu à un tel nombre de relations importantes que les chercheurs ont suffisamment de données à déclarer et à chercher plus loin, ce qui les empêche de procéder au dragage et à la manipulation des données.

La plupart des résultats de recherche sont faux pour la plupart des modèles de recherche et pour la plupart des domaines

Dans le cadre décrit, une VPP supérieure à 50 % est assez difficile à obtenir. Le tableau 4 présente les résultats des simulations à l'aide des formules élaborées pour l'influence du pouvoir, le rapport entre les relations vraies et non vraies et les biais, pour divers types de situations qui peuvent être caractéristiques de modèles et de contextes d'étude particuliers. Un résultat d'un essai clinique contrôlé, randomisé, bien mené et suffisamment puissant, commençant avec une probabilité de 50 % que l'intervention soit efficace avant l'étude, est finalement vrai environ 85 % du temps. Une méta-analyse de confirmation d'essais randomisés de bonne qualité devrait donner des résultats assez semblables : le biais potentiel augmente probablement, mais les chances de puissance et les chances de pré-test sont plus élevées par rapport à un seul essai randomisé. Inversement, un résultat méta-analytique provenant d'études non concluantes où la mise en commun est utilisée pour "corriger" la faible puissance d'une seule étude, est probablement faux si R ≤ 1:3. Les résultats de recherche issus d'essais cliniques précoces et insuffisamment étayés seraient véridiques environ une fois sur quatre, ou même moins fréquemment s'il y avait un biais. Les études épidémiologiques de nature exploratoire donnent des résultats encore pires, surtout lorsqu'elles sont sous-alimentées, mais même les études épidémiologiques bien menées n'ont peut-être qu'une chance sur cinq d'être vraies, si R = 1:10. Enfin, dans la recherche axée sur la découverte avec tests massifs, où les relations testées dépassent les vraies 1 000 fois (p. ex. 30 000 gènes testés, dont 30 peuvent être les vrais coupables) (Ntzani et Ioannidis, 2003; Ransohoff, 2004), la VPP pour chaque relation déclarée est extrêmement faible, malgré une normalisation considérable des méthodes et résultats statistiques en laboratoire et en ce qui concerne les rapports et la réduction des biais.

1-BRuIllustrationVPP
0.801:10.10essai clinique contrôlé, randomisé, bien mené, suffisamment puissant avec un odds ration préalable de 1:10.85
0.952:10.30meta-analyse confirmatoire portant sur des essais cliniques contrôlés et randomisés suffisamment puissant0.85
0.801:30.40méta-analyse d'études portants sur de petits échantillons et inconclusives0.41
0.201:50.20essai clinique contrôlé, randomisé, bien mené, avec une puissance faible, en phase I/II0.23
0.201:50.80essai clinique contrôlé, randomisé, mal mené, avec une puissance faible, en phase I/II0.17
0.801:100.30étude épidémiologique exploratoire avec une puissance adéquate0.20
0.201:100.30étude épidémiologique exploratoire avec une faible puissance0.12
0.201:10000,80recherche exploratoire orientée sur la découverte avec tests massifs0.0010
0.201:10000.20comme précédemment, mais avec moins de biais (plus standardisée)0.0015
-VPP des résultats de la recherche pour diverses combinaisons de pouvoir (1 - ß), rapport des relations vraies/non vraies (R) et biais (u)

Les résultats de recherche revendiqués peuvent souvent n'être que de simples mesures précises du biais qui prévaut

Comme nous l'avons vu, la majorité de la recherche biomédicale moderne est menée dans des domaines où la probabilité de résultats réels est très faible avant comme après l'étude. Supposons que dans un domaine de recherche, il n'y ait aucune véritable relation à découvrir. L'histoire des sciences nous enseigne que les chercheurs ont souvent, par le passé, dépensé des ressources en vain, dans des domaines où il n'y avait absolument pas de véritable information scientifique à découvrir, du moins d'après nos connaissances actuelles. Dans un tel "champ nul", on s'attendrait idéalement à ce que toutes les tailles d'effet observées varient aléatoirement autour de zéro, en l'absence de biais. Si les résultats observés s'écartent de cette répartition aléatoire, nous sommes alors en présence d'une mesure pure du biais dominant.

Supposons, par exemple, qu'aucun nutriment ou régime alimentaire ne soit en fait un déterminant important du risque de développer une tumeur spécifique. Supposons également que la littérature scientifique ait examiné 60 nutriments et affirme qu'ils sont tous liés au risque de développer cette tumeur avec des risques relatifs de l'ordre de 1,2 à 1,4 lorsque l'on compare les tertiles supérieur et inférieur. Dans ce cadre, les tailles d'effet revendiquées ne mesurent rien d'autre que le biais net dans la production de cette littérature scientifique, par exemple du fait de conflit d'intérêts financiers ou idéologiques. Les "résultats" publiés sont en fait les estimations les plus précises du biais net. Il s'ensuit alors qu'entre deux "champs nuls", le domaine qui revendiquent les effets les plus forts (souvent accompagnés de revendications médicales ou de santé publique alarmistes) est simplement celui qui subi le biais le plus important.

Dans le cas des champs dont la VPP est très faible, le fait qu'il existe une poignée de relations vraies ne fausse pas beaucoup cette image globale. Même si quelques relations sont vraies, la forme de la distribution des effets observés demeure malgré tout une mesure nette des biais systématiques qui opèrent dans le champ. La conception que je propose, inverse totalement notre façon de voir les résultats scientifiques. Traditionnellement, les chercheurs ont considéré les effets importants et très importants avec enthousiasme, comme des signes de découvertes importantes. Mais, dans la plupart des domaines de recherche contemporains, il est probable que des effets trop importants et trop significatifs soient plutôt des indicateurs d'un biais particulièrement lourd. De tels résultats devraient amener les chercheurs à faire preuve d'un esprit critique attentif à l'égard de ce qui a pu mal tourner dans leurs données, leurs analyses et leurs résultats.

De toute évidence, on s'attend à ce que les chercheurs qui ont œuvré toute leur carrière durant à générer des connaissances dans un domaine donné résistent à l'idée que le domaine en question soit déclaré comme un "champ nul". Cependant, des éléments de preuves extérieurs, les progrès technologiques et les progrès en terme d'expérimentation peuvent éventuellement mener au démantèlement d'un domaine scientifique. L'obtention de mesures du biais net dans un domaine donné peut également être utile pour nous faire un aperçu de ce que pourrait être l'étendue du biais dans d'autres domaines similaires en termes de méthodes d'analyse, de technologies et de conflits d'intérêts.

Comment pouvons-nous améliorer la situation ?

Est-il inévitable que la plupart des résultats publiés soient faux, ou pouvons-nous améliorer la situation ? Un problème majeur est qu'il est impossible de connaître la vérité dans une question de recherche. Cependant, il existe plusieurs approches pour améliorer la probabilité qu'un résultat soit vrai.

Des données probantes plus puissantes, p. ex. de grandes études ou des méta-analyses peu biaisées, peuvent être utiles, car elles se rapprochent de ces standards parfaits hypothétiques. Toutefois, les études de grande envergure peuvent encore avoir des biais qu'il faut reconnaître et éviter. De plus, il est impossible d'obtenir des données probantes à grande échelle pour l'ensemble des millions de questions de recherche posées dans la recherche actuelle. Les données probantes à grande échelle devraient être ciblées pour les questions de recherche pour lesquelles la probabilité avant l'étude est déjà considérablement élevée, de sorte qu'un résultat de recherche important mènera à une probabilité post-étude qui serait considérée comme définitive. Les données probantes à grande échelle sont aussi particulièrement intéressantes si elles permettent de mettre à l'essai des concepts majeurs plutôt que des questions précises et étroites. Une conclusion négative peut alors réfuter non seulement une allégation spécifique proposée, mais un champ entier ou une partie considérable de celui-ci. Le choix de la réalisation d'études à grande échelle fondées sur des critères étroits, comme la promotion commerciale d'un médicament en particulier, est en grande partie du gaspillage de ressources. De plus, il faut faire attention à ce que les études de très grande envergure soient plus susceptibles de trouver une différence statistiquement significative pour un effet trivial qui n'est pas vraiment significativement différent de l'effet nul (Lindley, 1957; Bartlett, 1957; Senn, 2001).

Deuxièmement, la plupart des questions de recherche sont abordées par de nombreuses équipes, et il est trompeur de mettre l'accent sur les résultats statistiquement significatifs d'une seule équipe. Ce qui compte, c'est l'ensemble de ce qui a été trouvé. La réduction des biais par l'amélioration des standards de recherche et par la lutte contre les préjugés peut également être utile. Toutefois, cela peut nécessiter un changement de mentalité scientifique qui peut être difficile à atteindre dans les faits. Dans certains modèles de recherche tels que les études cliniques randomisées, les résultats bénéficieraient grandement d'un enregistrement initial (De Angelis et al., 2004). Néanmoins, l'enregistrement initial est une pratique qui peut être difficile à réaliser pour la recherche génératrice d'hypothèses. Une forme d'enregistrement ou de mise en réseau des collectes de données ou des investigateurs d'un domaine peut être plus faisable que l'enregistrement de chaque expérience génératrice d'hypothèses indépendamment. Quoi qu'il en soit, même si la pratique de l'enregistrement initial ne se propage pas au delà des essais cliniques, des principes connexes, tels que l'élaboration et le respect d'un protocole, pourraient être aisément transposés à la plupart des domaines.

Enfin, au lieu de courir après la significativité statistique, nous devrions plutôt concentrer nos efforts à comprendre l'éventail des valeurs R (la probabilité que la relation soit vraie avant l'étude) là où les efforts de recherche sont déployés (Wacholder et al., 2004). Avant de se lancer dans une expérience, les chercheurs devraient se demander quelle estimation ils peuvent faire des probabilités que la relation testée soit vraie. On pourra alors repérer les domaines dans lesquels on peut spéculer des valeurs R élevées. Comme on l'a vu plus haut, les grandes études devraient être prioritairement réalisées avec un biais minimal sur des résultats de recherche qui sont considérés comme relativement établis, pour voir à quelle fréquence ils sont effectivement confirmés - du moment que cela est acceptable sur le plan éthique. Je soupçonne que plusieurs "vérités" bien établies échoueront au test (Ioannidis, 2005).

Néanmoins, la plupart des nouvelles découvertes continueront de découler de recherches génératrices d'hypothèses dont les chances de succès avant l'étude sont faibles ou très faibles. Nous devrions alors reconnaître que les tests de significativité statistique rapportés par les auteurs d'une seule étude donnent une image tronquée de ce qui est vérifiable du moment qu'on ne sait pas combien de tests ont été effectués en dehors de ce qui a été rapporté, et dans le domaine pertinent en général. Malgré l'abondante littérature statistique sur les corrections de tests multiples (Hsueh, Chen et Kodell, 2003), il est généralement impossible d'estimer la quantité de dragage de données réalisée par les auteurs d'une publication ou par les autres équipes de recherche avant qu'un premier résultat de recherche ne soit rapporté. Même s'il était possible de déterminer cette valeur, cela ne nous renseignerait pas sur les odds-ratio avant l'étude. Il est donc inévitable que l'on fasse des hypothèses approximatives sur le nombre de relations que l'on s'attend à trouver vraies parmi les personnes interrogées dans les domaines de recherche et les modèles de recherche pertinents. Inspecter plus largement le "grand domaine" dans lequel s'inscrit le domaine de l'étude peut permettre de nous faire une idée de ces probabilités, tout comme l'examen de la présence de biais dans des champs voisins. Même si ce genre de conjecture est forcément très subjectif, nous pouvons utilement y recourir pour interpréter les divers résultats publiés et les mettre en contexte.