Quelques bases de la méthode scientifique expliquées à mon pote cycliste...

Quelques bases de la méthode scientifique expliquées à mon pote cycliste...

Illustration : aliciane.guitard - Texte : Moi même

Même s'ils tournent souvent en rond, les cyclistes ne méritent pas moins que les autres de pouvoir comprendre les rudiments de la méthode scientifique... Voici une tentative brutale et lapidaire d'expliquer quelques points de cette fameuse méthode...

Le ressenti c'est l'ennemi

On l'a certainement déjà tous vécu, des fois on a l'impression de se traîner et au final on explose notre record et d'autre fois, à l'inverse on a l'impression d'être une locomotive mais le chrono est décevant...
Et c'est valable que l'on soit un pédaleur occasionnel ou un king qui ne cumule ses sorties annuelles qu'en milliers de km...
Nos sensations, notre ressenti est anecdotique, il n'est pas fiable pour nous permettre de mesurer notre performance...
Le seul moyen d'avoir une vision réaliste c'est de mesurer, avec un simple chrono, un compteur, un GPS ; voire pour les plus geek d'entre nous un capteur de puissance.
Ces outils sont calibrés et quand ils disent "tu te traînes" c'est que tu te traînes...

Nous tous, pauvres humains, sommes dotés d'un cerveau extraordinaire mais imparfait, il n'est pas calibré, et il est influençable par tant de choses, un souci X ou Y, un nouveau vélo, la présence d'un pote (et je parle pas de prendre sa roue)...
Bref pour obtenir un résultat fiable il va falloir trouver des astuces pour lutter contre la faillibilité de nos cerveaux...

C'est là un des principaux objectifs de la méthode scientifique, tenter d'éliminer nos propres erreurs pour mieux cerner la vérité...

Des aveugles pour y voir plus clair

Admettons que lors de leur dernière émission Maryse et Pierre aient réussi à nous refourguer un plateau carré : "ses mérites sont sans fin et plus jamais vous ne passerez par la fenêtre lors de vos parties de manivelles entre copains [1]"...
Si on veut en avoir le cœur net il faudra donc tester cette couronne magique à la forme carrée... Et là déjà se pose un premier piège : notre apriori. Si de base on trouve cette idée magnifique ou au contraire si on la trouve aussi conne que stupide notre préjugé influencera dans un sens ou dans l'autre notre performance et notre jugement et donc les résultats du test...

C'est là que le principe "d'aveugle" intervient, l'objectif est de trouver un protocole pour que les aprioris des intervenants humains ne puissent pas influencer le résultat. Il faut donc trouver un subterfuge pour que le pédaleur ne sache pas que c'est l'efficacité du plateau carré que l'on cherche à évaluer...

En science on parle de simple, double voire triple aveugle, voici une simplification de la chose :

  • Simple aveugle : le sujet expérimenté ne sait pas quelle est la finalité du test
  • Double aveugle : idem pour le sujet expérimenté, en plus l'accompagnateur, celui qui guide, accueille et note les résultats de l'expérimenté ne sait pas quelle est la finalité du test
  • Triple aveugle : idem pour l'expérimenté et l'accompagnateur, en plus, ici, on fait interpréter les données à un évaluateur qui lui aussi ne sait pas quelle est la finalité du test

Rapporté à notre cas vélocipédique ça donnerait :

  • Simple aveugle : le sujet expérimenté est placé sur un home-trainer les yeux bandés il ne peut donc pas voir la forme du plateau
  • Double aveugle : l'accompagnateur ne doit pas voir le plateau non plus donc on met en place un gros carénage pour le masquer
  • Triple aveugle : on conserve notre carénage, et on fournira les données à l'évaluateur en lui expliquant le strict minimum : c'était un cycliste sur un home-trainer et c'est tout, à lui de fouiller dans les données pour trouver des "résultats significatifs"

Ça fait partie des grands critères classiques qui font qu'une étude peut être de qualité ou pas, mais attention ce seul critère n'est pas suffisant.
En médecine le simple aveugle est pas toujours facile à gérer, mais dans le cas des tests Marseillais c'était très probablement faisable...

Groupe contrôle et randomisation

Ok, Didier - oui notre cycliste j'ai décidé de le baptiser Didier [2] - tu arrives a faire 123,2W avec ton plateau carré, tout ça c'est bien joli, mais... C'est bien ou c'est pas bien ?

Pour savoir si tu pédales plus fort avec un plateau carré il faut pouvoir comparer tes "perfs plateau carré" à tes "perfs standards", ça tombe sous le sens non ?
Si on a pas de "puissance de référence" notre mesure, notre test ne permet pas de dire si c'est mieux...

Il nous faut donc un élément de comparaison, avec un peu d'imagination on peut identifier la situation idéale :

  1. On duplique Didier et hop on a 2 Didiers strictement identiques pour faire notre test
  2. On met chaque Didier en situation comparable (mêmes pièces, même lumière, même température, ...) chacun sur un home-trainer identique, les yeux bandés et sans leur dire quoi que ce soit de plus, évidement, on veut qu'ils restent "aveugles"...
    1. Didier 1 : plateau standard ce sera notre étalon, c'est le fameux groupe contrôle
    2. Didier 2 : plateau carré
  3. On lance le test en même temps et on mesure le tout avec les mêmes instruments correctement calibrés.

Au final on a donc 2 résultats un pour le plateau carré et l'autre pour le plateau standard et c'est le seul paramètre qui est modifié tout le reste est identique, mêmes Didiers, mêmes vélos, même tout...
Là nos mesures deviennent intéressantes on peut comparer les données et en déduire un résultat : c'est mieux / c'est moins bien et surtout on peut être sûr que c'est bien l'impact du plateau que l'on mesure car tout le reste est identique.

Ça c'est la situation idéale, hélas pour ce qui est des humains le copier-coller fonctionne généralement assez mal...
Mais on peut quand même utiliser ces résultats grâce à 2 paramètres : le nombre et la randomisation...

Si on a qu'un seul et unique Didier pour faire notre expérience et bien on peut lui faire répéter le test plusieurs fois.

Un premier test "plateau standard" puis un second test "plateau carré", c'est le minimum... On va donc lui faire subir ça 2 fois sur 2 jours consécutifs.

  1. Test 1 jour 1
    1. Plateau standard
      puis
    2. Plateau carré
  2. Test 2 jour 2
    1. Plateau carré
      puis
    2. Plateau standard

Évidement ça introduit des modifications dans les conditions, il est évident que notre Didier ne sera pas aussi frais pour le 2ème test de la journée...
Mais, en faisant 2 répétitions on réduit "le poids" de chaque résultat, maintenant chaque test n'est plus que la moitié de l'expérience globale donc son résultat compte pour 50% dans le résultat global.
Ça n'améliore pas la qualité individuelle des tests, ils restent imparfaits à cause de la fatigue, certes, mais en réduisant le poids de chaque test on réduit aussi l’imprécision...

Si on veut être plus fin encore et bien on colle notre Didier 20 jours consécutifs sur le home-trainer, augmentant ainsi drastiquement la précision de notre expérience globale...

Dans le cas de l'évaluation d'un médicament contre une maladie on ne peut pas faire refaire le test à la même personne, on va pas inoculer, guérir et re-inoculer 20 fois la maladie à Didier (encore que certains trouveraient ça marrant) ça n'a pas de sens pour pleins de raisons...
Donc on utilise la force du nombre autrement, au lieu de s'acharner sur un seul cobaye on va faire appel à un peloton pour multiplier les expériences (en science notre peloton c'est une "cohorte"). Du nombre découlera la précision avec 10 personnes on aura moins de précision qu'avec 100 personnes et ainsi de suite. Plus le peloton est important meilleure est la précision.

On prendrait donc 100 personnes et on ferait 2 groupes : un groupe plateau standard et un groupe plateau carré.
Mais, en utilisant des personnes différentes on introduit pleins de variantes, impossible de trouver 100 personnes avec le même profil en tout point, si on prend notre peloton on aura forcément des grimpeurs, des sprinteurs et des raouleurs...
Donc si on veut avoir des résultats exploitables il faudra avoir des groupes idéalement équilibrés, pour ça on met autant de grimpeurs, autant de sprinteurs et autant de raouleurs dans chaque groupe, et on réparti la variabilité.

Bien évidement c'est une sur-simplification il y a d'autres variables importantes dans notre peloton, certains se rasent, pas les autres, les uns roulent le samedi, les autres le dimanche... Et il y aussi quelques différences de fabrication, l'age, le volume d’entraînement, le poids, la masse graisseuse ... ah ces humains quel bordel...

En science donc, comme réaliser des groupes parfaitement équilibrés sur tous les paramètres est impossible, on tire les groupes au hasard, c'est la randomisation (de random, aléatoire en anglais)...
On reste loin de la situation idéale mais en utilisant une cohorte importante et en répartissant aléatoirement nos cobayes on réduit le poids de ces imprécisions...

Le tirage aléatoire évite la problématique de travailler avec des groupes déséquilibrés : un groupe de malades jeunes et un groupe de malades vieux, dans le cas de la COVID19 ce paramètre aurait un impact important sur le résultat final...

Pour récapituler, pour tester un plateau carré on ferait :

  • Groupe contrôle : 50 personnes tirées au sort avec le plateau standard
  • Groupe test : 50 personnes tirées au sort avec le plateau carré

Et bien pour tester un médoc contre la COVID19 c'est pareil

  • Groupe contrôle : 50 personnes tirées au sort avec un traitement standard (oxygène, respirateur si besoin, etc...)
  • Groupe test : 50 personnes tirées au sort avec le traitement standard (oxygène, respirateur si besoin, etc...) PLUS le médoc à tester

Ainsi en faisant varier uniquement ce paramètre on sait que le résultat final mesurera l’efficacité de ce seul paramètre. (Là aussi c'est une sur simplification...)

Principe d’incertitude et éthique des tests

L'éthique exclue évidement d'inoculer une maladie "juste pour pouvoir faire des tests" (enfin je crois) donc les tests de traitements médicaux s'effectuent sur des patients réels et on est donc soumis aux contraintes de la réalité : disponibilité de patients, nécessité de "ne pas nuire" (c'est même mieux si ça aide ces patients, c'est un peu le but de tester un médoc), suivi sérieux de l'état de santé des patients ... et parfois à l'urgence de la situation...

Bref si on rapportait notre problématique de plateau carré contre plateau rond, on pourrait transposer cela sur une "vraie course", à la fin de la course on doit avoir un résultat, le peloton n'est dispo que le jour de la course et puis c'est la vraie vie y'a une coupe en plastoc à gagner ! On va donc pratiquer notre expérience lors de cette vraie course (elle partira du vieux port et la ligne d'arrivée sera à la Bonne mère 1.9km 135m de D+ plus tard)...

On conserve notre protocole : un peloton de 100, 50 coureurs pour le groupe plateau carré et 50 pour le groupe plateau rond.
Mais faire ce test pourrait avoir un impact sur le résultat de la course, si le plateau carré est plus efficace le "groupe rond" - notre groupe contrôle - sera lésé ! Se pose donc une question d'éthique : Peut on faire notre test ?

La réponse apportée par la philo des sciences est oui, mais à deux conditions principales :

  1. Plateau rond, plateau carré : qui est le plus efficace ? Avant le test un doute doit exister ! S'il n'existe pas de certitude avant le test celui-ci est éthiquement validé, c'est le principe d'incertitude.
  2. Le test doit permettre de faire avancer l'état des connaissances, pour cela le protocole doit être solide et l’exécution rigoureuse et le test doit permettre d'obtenir des résultats solides et donc exploitables.

Pour notre histoire de plateau :

  1. J'ai bien une opinion, pour moi les plateaux carrés c'est le top, mais la littérature scientifique ne comporte pas de résultat tranché... Face à la communauté scientifique mon opinion individuelle est anecdotique donc on passe ce premier critère.
  2. Pour le protocole on a vu précédemment comment s'organiser pour pouvoir obtenir des résultats exploitables, ceux ci pourront faire avancer l'état des connaissances donc on valide aussi le deuxième critère, on peut lancer notre test...

Si on revient à la réalité la situation face à la COVID19 était la suivante : le Pr . Raoult propose un protocole basé sur 2 molécules : l'Hydroxychloroquine et l'Azithromicine.

Pour que son protocole soit solide il devrait donc prévoir 2 groupes comparables et tester son traitement ET un traitement standard :

  • Groupe contrôle : Traitement A : soins standards (oxygène, respirateur si besoin, etc...)
  • Groupe test : Traitement B : soins standards (oxygène, respirateur si besoin, etc...) PLUS traitement  à l'Hydroxychloroquine + Azithromicine

Dans son premier test le protocole de l'équipe de Marseille était tellement décousu et mal exécuté (elle n'a même pas respecté le protocole qu'elle avait elle même établi) que l'on ne pouvait raisonnablement rien tirer des données produites...

Et pour son 2ème test ce n'est pas ce qu'a fait le Pr. Raoult, il n'a purement et simplement pas fait de groupe contrôle :

  1. Il partait du principe que le traitement B était plus efficace, il en était persuadé, il s'est donc appuyé sur cette conviction pour affirmer que réaliser un test avec un groupe contrôle c'était "condamner" ce groupe contrôle à recevoir un moins bon traitement et ainsi justifier qu'il ne fallait pas faire de groupe contrôle : "ce ne serait pas éthique"...
    Or au moment du lancement de ce second test l'état des connaissances scientifique est clair : il n'y a pas de consensus, l’efficacité de l'Hydroxychloroquine n'a pas été démontrée, il y a eu des tests certes, il y a des pistes notamment in-vitro, certes, mais tout cela ne permet pas d'affirmer la supériorité du traitement B dans le traitement de la COVID19. Sa position ne tient donc pas il ne pouvait pas invoquer l'éthique pour se dispenser de groupe contrôle...
  2. Enfin, ne comportant pas de groupe contrôle son test ne permet pas de comparer sérieusement les traitements A et B, son test ne permet ni d'obtenir un résultat solide et ni de faire avancer le consensus scientifique.
    Bref son test n'est pas suffisamment solide pour faire avancer le consensus, son test n'était donc pas éthique...

L'urgence ne peut en aucun cas justifier l'abandon de la rigueur scientifique, cette rigueur scientifique est nécessaire pour faire avancer l'état des connaissances, ne pas y satisfaire c'est perdre du temps [3] et perdre du temps face à une épidémie c'est jamais une bonne idée...

Bref je ne sais pas si on saura un jour qui du plateau carré ou du plateau rond est le plus efficace, mais ce qui est sûr c'est que l'on n'y parviendra pas en faisant n'importe quoi...

 

[Ajout le 19/04]

On peut compléter cette lecture par le visionnage de cette vidéo de Thibault Fiolet, dont j'ai déjà cité le travail de synthèse sur le SRASCOV2 :

https://www.youtube.com/watch?v=4IQwmSGkWik

 


[1] "passer par la fenêtre" : ne pas réussir à suivre - "une partie de manivelles" : sortie plutôt sportive..

[2] Et oui Didier roule !

[3] Oui si ce second test avait été solide les résultats produits auraient certainement fait avancer le consensus et évitant la nécessité pour de multiples équipes de reproduire des tests sur l'Hydroxychloroquine, il y a donc bien une perte de temps à produire de la mauvaise science.

Parution : 16/04/2020

Fil RSS