Critique d’une étude hollandaise qui conclut que l’EPO n’a pas amélioré la performance chez les cyclistes amateurs (épreuves endurance)

Une étude hollandaise, réalisée sous forme d’un essai clinique et portant sur l’efficacité de l’EPO, est parue en juin 2017 dans la revue scientifique The Lancet, revue réputée, qui conclut de manière assez affirmative que l’EPO n’a pas d’effet sur la performance chez les sportifs amateurs bien entraînés, pour des épreuves d’endurance type contre la montre de 45 minutes, ou course sur route avec l'ascension d’un col très difficile en phase finale.
Lien Internet : http://www.thelancet.com/journals/lanhae/article/PIIS2352-3026(17)30105-9/fulltext
Mon article se propose de faire « l’étude de l’étude » et pointer de manière rigoureuse et la plus objective possible, les défauts, les erreurs méthodologiques, les faiblesses, les biais, et les approximations dans les conclusions. Cette idée est apparue suite à 2 articles parus en juillet 2017 sur le site SPE15, qui ont pointé la faiblesse de cette étude et de ses conclusions qui viendraient en opposition d’un consensus scientifique sur l’efficacité de l’EPO. Etant moi-même un passionné de physiologie, m'intéressant à la performance chez les sportifs de haut niveau, j’ai voulu y voir un peu plus clair et procéder à une analyse plus approfondie.
Je préviens d’ores et déjà le lecteur que cet article revêt un caractère un peu technique et demande quelques connaissances en physiologie et en statistiques. Cependant, ces aspects peuvent-être négligés sans trop nuire à la compréhension de l’ensemble, en se concentrant uniquement sur la manière dont une étude peut-être analysée, décortiquée, à travers des angles d’observations différents (physiologique, méthodologique, statistique) en vue d’en évaluer la réelle pertinence. Ce pourrait être une forme de lecture et de décryptage alternatif.
L'étude publiée repose sur trois épreuves, dont 2 se sont effectuées en laboratoire, avec analyse des principaux paramètres physiologiques tels que : VO2max (consommation maximale d’oxygène), la puissance maximale, les seuils ventilatoires, la production de lactates, seuil anaérobie, etc...
- Un test maximal en laboratoire pour évaluer la PMA, le VO2max, ….
- Un test en laboratoire simulant un contre-la-montre d’une durée de 45 minutes
- Une course de 130 kms avec ascension du Mont Ventoux en final
Ce décryptage se concentre davantage sur les aspects protocoles et méthodologies, et non sur l’analyse des paramètres physiologiques.
A) Quelques points particuliers du protocole
- Il s’agit d’une étude randomisée et en double aveugle. 48 participants sont répartis aléatoirement dans 2 groupes de 24 coureurs, un groupe placebo et un groupe sous traitement recevant la molécule EPO.
- Les 2 groupes reçoivent une complémentation en fer et en vitamine C (point important qui sera détaillé par la suite).
- Nous avons une connaissance du niveau initial moyen des coureurs à travers un test maximal et un test sous-maximal (baseline), mais pas de références initiales sur la montée du mont Ventoux.
- La méthodologie s’appuie sur des tests d’hypothèse et donc les lois de la statistique. D’autres outils statistiques sont utilisés tels que les analyses de covariance.
B) L’échantillonnage
L'échantillonnage s’est fait sur une sélection de coureurs âgés de 18 à 50 ans. La taille des échantillons a été calculée sur des bases statistiques et j’y reviendrai. Les deux groupes paraissent relativement homogènes et très peu d’écarts sont à noter sur les moyennes des principaux paramètres physiologiques.
CRITIQUE : Cet éventail des âges est à mon avis beaucoup trop large, considérant qu’une réponse physiologique à la molécule rHuEPO n’est pas forcément identique sur un coureur de 20 ans et sur un coureur de 50 ans. En supposant que la réponse physiologique soit la même à tous les âges, on ignore comment l’organisme peut tirer profit de l’apport supplémentaire d’oxygène. Peut-être faut-il un entraînement plus spécifique pour faire progresser les aptitudes chez les personnes proches des 50 ans. Peut-être est-il également nécessaire de procéder à une phase d’échauffement plus longue pour les différents tests en laboratoire (problème de dilatation des capillaires pour une meilleure diffusion de l'O2, entres autres).
En résumé, cette dispersion au niveau des âges me paraît inadaptée et peut fausser les interprétations finales.
C) Tests d’hypothèse et puissance des tests
Le test d’hypothèse utilisé pour comparer les 2 groupes est le test t de Student basé sur la comparaison de deux moyennes (test bilatéral).
On pose comme hypothèse H0 que l’effet de la molécule dont on veut tester l’efficacité est nul pour les paramètres étudiés (d’où également l’appellation d’hypothèse nulle) et l’hypothèse inverse H1, qui si elle est acceptée (par rejet de l’hypothèse H0), pose l’idée que la molécule a une efficacité avec X% de chances de commettre une erreur (erreur de première espèce).
La puissance des tests a été définie à 80 %, signifiant qu’il y a 80 % de chance de rejeter l’hypothèse H0 alors qu’elle est fausse, c’est-à-dire de conclure que la molécule EPO est réellement efficace dans le cadre de l'étude. Ce niveau de puissance est un niveau minimal requis pour accorder une véritable crédibilité à l’étude. Augmenter la puissance du test signifierait d’augmenter également la taille des échantillons et donc le coût de l’étude. On est toujours face à des compromis !
L’erreur de première espèce a été fixée à 5 %, ce qui signifie que si on accepte l’hypothèse H1 autrement dit que l’EPO est efficace dans le cadre de l’étude, on a 5 % de chance de se tromper.
L’étude a retenu une signification des tests basée sur une détection d’une différence de VO2max de 1,7 millilitre. Rapporté au VO2max moyen des deux groupes qui est de l’ordre de 55 millilitres, cela signifie que le test est capable de détecter une variation de l’ordre de 3% entre les deux groupes (mais tout dépend évidemment des paramètres étudiés et des écarts-types constatés). Lorsque l’on combine la puissance du test et la signification du test, cela conduit à une taille d’échantillon de 24 personnes pour chacun des groupes.
Certaines remarques apportées sur le site The Lancet, pointent la faiblesse de la puissance du test au regard de ce que l’on veut démontrer. Effectivement, si on considère que l’EPO est signifiant en termes d’avantages comparatifs sur la performance avec un écart de 2 % sur un contre-la-montre de 45 minutes, entre les coureurs dopés et non dopés, le test n’est pas capable de le détecter.
Je précise bien qu’il s’agit d’un choix et qu’en aucun cas ce choix fragilise l'étude, mais joue uniquement sur les conclusions et le fait de les assumer. On peut très bien arriver à la conclusion qu'on ne peut pas conclure alors que l’on aurait pu conclure à l'efficacité de la molécule EPO avec un test plus puissant. C’est la problématique du basculement du test entre l’acceptation ou le rejet de l’hypothèse H0.
En résumé il n’y a aucun reproche à faire sur les choix paramétrique excepté peut-être une puissance qui n’est peut-être pas à la hauteur vis-à-vis de ce que l’on veut démontrer
D) Groupe placebo ou groupe témoin ?
Je rappelle que le groupe placebo reçoit une complémentation en fer et en vitamine C. Or ces produits ne sont pas neutres du tout et peuvent très bien influencer la physiologie en faisant augmenter le taux d’hémoglobine (on conseille d’ailleurs de prendre du fer à ceux qui sont victimes d’un début d’anémie). Je ne comprends donc pas pourquoi le groupe est qualifié de groupe placebo alors qu’il aurait dû être qualifié de groupe témoin (prenant des produits actifs), ce qui conditionne l’interprétation des résultats. Or, le groupe dit ‘placebo’ a vu augmenter son hémoglobine dans la deuxième période de l’étude, sans avoir une explication rationnelle.
Si le fait de prendre une complémentation en fer et en vitamine C contribue à augmenter le taux d’hémoglobine du groupe placebo, on peut se trouver dans une configuration où l’écart du taux d’hématocrite se réduit entre les 2 groupes par rapport à une étude où le groupe placebo serait réellement un groupe placebo (or, des études montrent qu’il peut y avoir des effets physiologiques et des gains de performance chez des sujets complémentés en fer, ayant un taux de ferritine assez bas sans pour autant qu'il y ait anémie, phénomène assez fréquent)
CRITIQUE : On se retrouve donc dans une configuration du « toutes choses égales par ailleurs » en laboratoire et sur le terrain (test uniquement de l’efficacité de la molécule indépendamment des autres compléments), simplement parce que tous les participants sont complémentés en fer et en vitamine C, alors qu’en conditions réelles de course, aussi bien chez les amateurs que chez les professionnels, on n’est jamais dans une telle situation. On est dans la situation inverse où « tout n'est pas égal par ailleurs », c’est-à-dire que les coureurs dopés par l’EPO vont être complémentés en fer et en vitamine C pour en augmenter l’efficacité, alors que les coureurs non dopés sont supposés par définition ne rien absorber. On ne peut donc pas comparer du « toutes choses égales par ailleurs » avec du « tout n’est pas égal par ailleurs », autrement dit, de manière populaire, on ne compare pas les choux et les carottes.
En toute logique, soit on est en « toutes choses égales par ailleurs » avec un groupe contrôle et on reste en système fermé imposant uniquement le cadre du laboratoire (test de l’efficacité de la molécule et uniquement de la molécule comme élément différenciant) ou bien on fait le choix d'un vrai groupe placebo (ne reçoit aucun produit actif) et l’ouverture sur le terrain devient possible par respect de cohérence. Il y a là à mon avis une incohérence fondamentale qui joue bien évidemment sur l’interprétation des résultats.
En résumé, le choix qui a été fait est de tester uniquement l’efficacité de la molécule EPO (en mettant tous les participants sur le même pied d’égalité par ailleurs), et non pas l’action de dopage par EPO, ce qui est complètement différent. C’est pourtant un point essentiel vis-à-vis des conclusions posées.
E) Évolution du taux d’hémoglobine dans les deux groupes
- Dans le groupe EPO, le taux d’hémoglobine monte régulièrement depuis les premières injections, jusqu’au 63e jour (12 jours environ après dernière injection), où a lieu la course du Mont Ventoux. La réponse maximale aboutit à un taux d’hématocrite moyen de l'ordre de 50%.
- Pour ce qui concerne le groupe placebo, l’évolution de la courbe pose interrogation, car dans une première phase, jusqu’au 28e jour, le taux d’hémoglobine décroit, pour ensuite progresser régulièrement au même rythme que le groupe sous traitement (présence d’un point de bifurcation inexpliqué). Je n’ai trouvé aucune explication à ce phénomène, qui à mon sens pose un problème dans l’interprétation des résultats finaux, étant donné l'écart relativement faible du taux d’hémoglobine entre les deux groupes, visible jusqu'à la fin de l'étude. Il n’y a aucune raison de nature physiologique qui peut expliquer de telles variations sur le taux d’hémoglobine et encore moins sur la présence d’un point de bifurcation (la taille de l’échantillon suggère qu’il y ait une très faible variabilité sur toute la durée de l’étude)
- La différence des moyennes de taux d'hématocrite sur toute la durée d’étude entre les deux groupes est relativement faible, de l'ordre de 7.5%(44.3% vs 47.6% soit 3.3 points d'écart en moyenne). Cette faiblesse rend évidemment plus difficile la détection des écarts.
La moyenne maximale du taux d'hématocrite atteinte au 63é jour (environ 50 %) reste inférieure à celles constatées lors de pratiques dopantes quasi généralisées (dans la pleine période EPO) qui les portaient à 55% chez les sportifs professionnels voire plus pour certaines individualités. Qu’en est-il chez les sportifs amateurs ? Aucun test en laboratoire dans cette étude n’a été fait au plus haut de la réponse physiologique, et on peut bien évidemment le regretter.
Selon les tests réalisés et le calendrier imposé, on peut noter des écarts de taux d’hématocrite de 5 à 12 points entre ces tests en laboratoire et ce qui fut visible sur le terrain dans les épreuves par étape chez les professionnels, ce qui est loin d’être négligeable.
En résumé, il apparaît que la différence de taux d’hématocrite entre les deux groupes y compris en fin de traitement, ne correspond en aucun cas aux réalités de terrain, lorsque des coureurs non dopés se confrontent à des coureurs dopés à l'EPO. Cette faible différence rend plus difficile la comparaison entre les deux groupes et la détection d’une éventuelle efficacité de la molécule, surtout quand les tests ne se réalisent pas en phase finale de traitement
F) Critique sur le test maximal en laboratoire
L’étude conclut à une amélioration significative de la performance (3 à 5% selon les paramètres)
Il y eut 4 tests d’efforts maximaux, et les comparaisons entre les deux groupes se sont faites sur des moyennes globales calculées sur ces 4 tests, programmés aux jours 11, 25, 39, 53, soit toutes les deux semaines ; il est très surprenant que le premier test maximal ait été fait aussi rapidement après la première injection alors même que la réponse physiologique est encore très faible. Cette remarque reste valable pour le 2e test maximal, ce qui contribue à abaisser la moyenne globale des principaux indicateurs physiologiques ainsi que les écarts moyens entre les deux groupes, pris comme bases pour les tests d’hypothèses et le calcul de la p-value.
On peut évoquer l’idée que la meilleure efficacité en termes de performance n’est pas forcément au point où la réponse physiologique est maximale (courbe de réponse), mais ce n’est pas ce qui fut observé chez les sportifs de haut niveau et décrit dans certaines études.
En résumé, avec cette méthode qui affaiblit la différence entre les deux groupes, le test d'hypothèses aurait pu amener à une conclusion différente, à savoir une différence non significative qui empêchait d’accepter l’hypothèse H1 qui valide l’efficacité de l’EPO. Je conclus donc à une erreur méthodologique
G) Critique sur le test contre-la-montre de 45 minutes en laboratoire
L’étude conclut à une absence d’amélioration de la performance
Cette épreuve en laboratoire a lieu le 46e jour après le début de l’étude, encore loin de la date où le taux d’hémoglobine est maximal (63e jour). La date de l'épreuve a été fixée par rapport à des contraintes de calendrier puisqu’elle se situe entre le 3e et le 4e test maximal, ces derniers ayant été programmés toutes les 2 semaines, ce qui constituait un système de contraintes non neutre pour l’appréciation globale de l’étude.
Le taux d’hématocrite moyen estimé pour le groupe sous traitement EPO lors de cette épreuve est de l’ordre de 47 - 48 %, ce qui est relativement faible et encore loin du niveau maximal atteint (50%), avec une différence estimée de l’ordre de 8 à 10 % avec le groupe placebo. Je rappelle que les différences chez les cyclistes professionnels en pleine période EPO, entre les dopés et les non dopés pouvaient être supérieures à 30 % !
En faisant l’hypothèse que le test de contre-la-montre se soit réalisé au 63e jour avec un groupe placebo affichant un taux d’hématocrite moyen de 43 %, taux initial (baseline) et tout à fait conforme aux taux observés chez les sportifs entraînés, nous aurions eu une différence de 16% entre les deux groupes (43% contre 50%). Nous avons là une nouvelle interrogation. Bien conscient que rien n’est linéaire ou proportionnel en physiologie, il est quand même légitime de se poser la question du résultat. Il faut préciser qu'un taux d’hématocrite important entraine une plus grande viscosité du sang, et donc une non linéarité par rapport à l’efficacité, mais des études montrent que la viscosité n'augmente de manière sensible qu’à partir de 50%.
Le test du contre-la-montre a failli conduire au rejet de l’hypothèse H0 pour le paramètre ‘puissance’, puisque la « p value » prend la valeur 0,086, toute proche de la valeur 0,05 qui fait basculer le test vers l’acceptation de l’hypothèse H1 et l’efficacité de la molécule. On peut émettre l’hypothèse que si ce test avait été réalisé dans les conditions que je viens de préciser, bien plus représentatives de la réalité, la « p value » tombait sous la valeur 0,05 qui fait inverser la conclusion.
Il n'y a pas eu de véritable phase d’échauffement avant cette épreuve (seulement 2 minutes de pédalage à 75 watts). L'échauffement est une phase essentielle pour optimiser l’ensemble des processus physiologiques et notamment pour l'amélioration des processus de diffusion de l’oxygène (c'est bien là notre problème !) entre les capillaires et les fibres musculaires (courbe de dissociation de l’hémoglobine selon les effets de la température des muscles, de l’acidité, et de la concentration en CO2).
En résumé, pourquoi n'ont-ils pas attendu la fin de la période pour faire le test contre-la-montre là où le taux d'hémoglobine est le plus élevé ? J’en conclus encore une fois un problème méthodologique
H) Critique sur la course de terrain avec ascension du Mont Ventoux
L’étude conclut à une absence d’amélioration de la performance. À noter que les deux groupes ont réalisé quasiment le même temps moyen (1h40). Mais là encore, statistiquement cela ne veut strictement rien dire (fluctuations d’échantillonnage).
- Il n'y a pas eu de test initial d’homogénéité entre les deux groupes pour une course avec ascension d’un col (analyse des moyennes et écarts-types).
- Il y eut des cas d’abandon.
- Les conditions de montée du Ventoux n'étaient pas propices à de bonnes mesures scientifiquement acceptables, étant donné la présence d'un fort vent ce jour-là (40 km/h en bas et 85 km/h en haut), accentuant l'effet drafting, les coureurs moins performants ayant pu se protéger.
- Bizarrement, nous avons très peu de données sur ce test. Ce reproche apparait dans les correspondances sur le site Internet de la revue.
- L’étude ne fait pas état des rangs d’arrivées. Si par exemple on avait constaté 15 coureurs traités par EPO sur les 20 premiers, cela eût été une information intéressante.
- A noter que d’autres outils statistiques ont été utilisés (analyse de covariance, à bon escient je pense).
En résumé, le choix de l'épreuve ne me paraît pas adapté par rapport à l'objectif fixé. La montée du Ventoux exige une trop faible puissance, où les contraintes physiologiques ne sont plus forcément en rapport avec l'approvisionnement en oxygène. On se trouve en dessous du seuil anaérobie, là où effectivement l'EPO n'est peut-être plus efficace. Alors pourquoi un tel choix ? C'est pourtant bien les contraintes d’oxygénation des tissus musculaires dans une problématique de production d’énergie que l’on veut tester …
I) Les biais
Dans tout essai clinique il faut essayer de s’affranchir des différents biais qui peuvent l’impacter (biais d’attrition, biais de suivi ou de prise en charge, biais de confusion, biais de sélection, …). De ce côté, je n'ai pas de remarques particulières à formuler. Il n’est pas question d’aborder cette problématique, mais pour les personnes qui auraient le courage de lire l’étude, je tiens cependant à préciser qu’il serait très hasardeux d’interpréter les évolutions de performance à partir des références initiales (baseline), considérant que des adaptations physiologiques ont pu intervenir pendant les 8 semaines de traitement grâce à l’entraînement. Ce type de biais se nomme « biais de confusion », ce qui sous-entend pour le cas présent que l’on pourrait attribuer à tort une évolution de performance à la molécule EPO, alors qu’en réalité il s’agirait d’une progression liée à l’entraînement pendant la période.
Les biais de laboratoire par rapport au terrain : en bref, … sachant qu’en laboratoire il est plus facile pour le corps de maintenir son homéostasie.
- Echauffement quasi inexistant dans les tests en laboratoire,
- Hydratation (joue sur le volume sanguin et le taux d’hématocrite),
- Dérive cardio-vasculaire (peut jouer en faveur de l'EPO)
- Composante lente de dérive d’oxygène (peut jouer en faveur de l'EPO),
- Environnement. altitude (il a été démontré que les gains de performance avec traitement EPO étaient plus importants en altitude)
Ces différents aspects renforcent la nécessité de prudence dans les conclusions.
J) Remarques et questions
- Il y eût 4 tests d’effort concernant le test maximal et seulement un test au 46e jour concernant le contre-la-montre. Nous n'avons donc pas les mêmes repères pour cette dernière épreuve. L’étude aurait dû se concentrer sur le test de contre-la-montre plutôt que sur les tests maximaux qui ont déjà fait l’objet de nombreuses études, et pour lesquels aucun doute n’est plus possible.
- Seulement une épreuve sur les 6 (course) a été réalisée avec la réponse physiologique maximale.
- La précision de certains paramètres est en inadéquation avec les incertitudes.
- Un programme spécifique d’entraînement (travail fractionné) aurait pu être mis en œuvre pour bénéficier pleinement de la part supplémentaire d’oxygène livrée aux muscles, en augmentant notamment la densité mitochondriale.
- Le laboratoire est toujours contraint dans son protocole eu égard à la nécessité de préserver la santé des participants. De ce fait, il est inenvisageable d’atteindre des niveaux de taux d’hématocrite à la hauteur de ceux observés sur le terrain.
K) La conclusion de l’étude, et ma conclusion
L’étude conclut que la molécule rHuEPO est bien efficace pour des efforts maximaux à la PMA ou au VO2max, et qu’elle n’améliore pas la performance pour des épreuves d’endurance de type contre-la-montre ou course classique.
Rappelons un point fondamental concernant les tests d’hypothèse : lorsqu’on ne peut pas mettre en évidence une différence statistiquement significative entre des valeurs de paramètres des deux groupes (valeur constatée de la p-value > 0,05), la seule conclusion possible que l'on peut formuler est que l'on ne peut pas conclure. On est peut-être victime des effets du hasard de l’échantillonnage.
La théorie statistique, avec la rigueur qu’elle impose, conduirait à formuler une conclusion différente, de la forme suivante concernant les épreuves d’endurance :
Dans le cadre de l’étude, nous n’avons pas constaté de différences statistiquement significatives entre le groupe sous traitement et le groupe témoin (tous 2 complémentés en fer et vitamine C), pour pouvoir formuler une conclusion sur l'efficacité de la molécule rHuEPO, seul élément différenciant dans la comparaison des 2 groupes.
C’est toute la nuance. Beaucoup de journaux en ligne ont repris leur conclusion, sans exercer le moindre esprit critique !
Le nombre d’éléments critiques, certaines approximations méthodologiques, la faiblesse des réponses physiologiques aux moments où se sont réalisés les tests en laboratoire, les écarts de situations observés entre le laboratoire et le terrain, font qu'à mon sens cette étude manque de pertinence. La conclusion aurait dû être bien plus mesurée en rappelant le contexte de l’étude et l’éloignement caractérisé entre les conditions de laboratoire et les conditions de terrain.
Pour terminer mon article, un peu long j’en conviens, je tiens à préciser que cette étude a été faite en toute transparence, avec un protocole très bien documenté, très étoffé, et qu’en aucun cas on ne peut douter de son caractère scientifique étant donné tous les soins particuliers apportés sur le plan médical et outils statistiques déployés. J’ai appris énormément de choses à travers toutes les recherches que j’ai pu mener, les lectures de thèses, certaines révisions théoriques, et rien que pour cette raison je remercie les auteurs de l’étude dont on ne peut douter des compétences techniques. Seulement voilà, à travers toutes les remarques et les critiques que j’ai pu formuler, on constate que tout n’a pas été mis en œuvre pour mettre en évidence l’efficacité de la molécule rHuEPO et de ses effets (si efficacité il y a pour les épreuves d’endurance chez les cyclistes amateurs !). C’est bien là la question majeure que soulève mon article.
Alain Desert
4 réactions à cet article
Ajouter une réaction
Pour réagir, identifiez-vous avec votre login / mot de passe, en haut à droite de cette page
Si vous n'avez pas de login / mot de passe, vous devez vous inscrire ici.
FAIRE UN DON