Alors qu’on commence à envisager un déconfinement progressif, et que chacun a un avis différent sur ses modalités, tout le monde semble au moins d’accord sur une chose : on doit tester les gens. Bien entendu, on ne sait pas si par exemple ce sera réservé, dans un premier temps, aux professionnels de santé ou aux individus à risque. Mais peu de gens s’interrogent sur la confiance à accorder aux tests de dépistage. Après tout, les « experts » qui les fabriquent/vendent aiment à rappeler qu’ils sont extrêmement fiables — qui de 90% ou de 95%.
Mais en fait, ça veut dire quoi exactement, la fiabilité d’un test ?
Cet article, un peu plus long que d’habitude, va tenter d’expliquer pourquoi la notion de fiabilité n’est pas une bonne notion, pas à pas. L’objectif est de répondre aux questions que vous vous posez sur les tests de dépistage, mais surtout à celles que vous ne vous posez même pas !
- Comment fait-on pour connaître la « fiabilité » d’un test ?
- Puisque le Test Miraculeux™ n’existe pas, y a-t-il des compromis dans la conception d’un test ?
- Si je suis testé, puis-je faire confiance au résultat du test ?
Et en prime, vous pourrez jouer au virologue en herbe en concevant votre propre test de dépistage ! C’est parti.
Conception d’un test : une affaire de compromis
Prenons du recul. On va s’intéresser à un test de dépistage générique, sans préciser de quelle maladie on parle. Cela permet :
- De s’abstraire des spécificités du coronavirus. En particulier, on n’a pas besoin de connaître la différence entre les tests sérologiques et les tests PCR. On peut considérer le test comme une boîte noire — c’est-à-dire une machine dont le fonctionnement est inconnu — qui nous indique si on est malade ou non.
- Mais aussi de tirer des conclusions générales, applicables à d’autres situations.

Notons qu’il est intéressant de tester non pas le fait d’être malade mais simplement d’être (ou d’avoir été) infecté par le coronavirus. Mais pour simplifier les choses, fixons les idées pour la suite et intéressons-nous uniquement au cas malade / non malade (sain).
Une difficulté provient du fait que la réponse du test doit être binaire, qualitatif. Oui ou non. Malade, ou sain. On dit aussi : positif ou négatif, en faisant référence au résultat test. Or, j’en parlais déjà ici, il est très difficile d’extraire des caractéristiques binaires de façon objective et systématique [1]. Ce qu’on sait faire de mieux reste d’obtenir des grandeurs quantitatives. Pour transformer une quantité en une qualité, on peut alors procéder à un seuillage.
L’arme secrète, le seuillage
Le seuillage est une opération très simple. Elle consiste à déterminer si une valeur est inférieure ou supérieure à un seuil donné. Par exemple pour une image en niveaux de gris, en prenant pour seuil un gris moyen, on peut la convertir en image noir et blanc [2].

Pour concevoir un test de dépistage, on peut utiliser un seuillage (et dans les faits, c’est souvent le cas) :
- On récupère des données quantitatives concernant le malade (par exemple la charge virale).
- On combine ces grandeurs entre elle pour les résumer à une seule valeur.
- Le test se reformule alors par : la valeur calculée est-elle plus petite ou plus grande qu’un certain seuil, fixé lors de la conception du test ? Dans le premier cas, le test est positif, dans l’autre, il est négatif.
On voit qu’on dispose de deux leviers d’action pour affiner notre test : les données qu’on récolte (leur qualité et leur pertinence), et la valeur du seuil. Dans le premier cas, cela relève de l’expertise des concepteurs. Il est raisonnable de croire qu’ils mettent toute leur science dans la conception d’un test qui exploite des grandeurs pertinentes — et que leurs mesures sont le plus juste possible, étant donné les moyens dont ils disposent. Il n’y a pas lieu de remettre cette expertise en cause. Intéressons-nous donc à l’autre levier : la valeur du seuil.
Simulation interactive : concevez votre propre test de dépistage !
Pour bien saisir les compromis à faire lorsqu’on sélectionne le seuil de détection d’un test, je vous propose de jouer à le choisir vous-même.
Ne paniquez pas ! C’est une situation imaginaire (un « modèle jouet »), pour laquelle vous n’avez pas à vous préoccuper des mesures à faire. Elles ont déjà été faites par les experts, qui ont tout bien agrégé en une seule valeur qui varie entre 0 et 100 et qu’on appellera Valeur Miracle™. Votre unique mission, si vous l’acceptez, est de choisir la valeur du seuil (entre 0 et 100, donc). Pour fixer les idées, les patients dont la Valeur Miracle™ est inférieure à votre seuil verront leur test dire Positif (= vous êtes malade), et les autres, Négatif.
Les patients sont représentés par des points sur votre écran. Ils sont répartis horizontalement suivant leur Valeur Miracle™ (l’axe vertical n’a pas de signification particulière, il sert juste à distinguer les patients les uns des autres). Pour vous aider dans votre choix, vous savez quels patients sont vraiment malades [3], ce sont ceux en rouge. Les patients testés Positif sont entourés. En cliquant sur la barre verticale, vous pouvez la déplacer pour changer la valeur du seuil, et automatiquement, l’analyse de performance du test se met à jour. Dans un premier temps, ignorez ces noms barbares, et essayez plutôt de voir l’impact de votre choix sur la vie des patients. Quelqu’un qui utilise un test se fiche bien de ses performances de laboratoire, ce qui compte est qu’il prendra une décision sur la base du résultat du test.
- Y a-t-il trop de patients malades non détectés (résultat dit « faux négatif ») ?
- Réciproquement, est-ce qu’on dit à des gens sains qu’ils sont malades (ce qu’on appelle un « faux positif » ou une « fausse alerte »).
- Selon vous, dans le cas du déconfinement lié à Covid19, ces deux problèmes se valent-ils ?
⤹ Vous pouvez déplacer la frontière de décision, essayez !
Sain | Malade | |
---|---|---|
Testé négatif | 10 | 20 |
Testé positif | 40 | 60 |
Sensibilité | Spécificité |
---|---|
100 % | 100 % |
Val. préd. Positive | Val. préd. Négative |
100 % | 100 % |
Prenez ensuite le temps d'expérimenter pour deviner ce que les pourcentages représentent. Vous verrez l'impact de votre seuil sur les performances du test. Comme vous pourrez rapidement le constater, il vous sera impossible d'avoir 100% partout… votre compromis vous satisfait-il ?
Expliquons en quelques mots ces mesures de performance. Ils répondent en fait à des questions simples — mais au lieu de répondre par Non ou Oui, c'est avec des pourcentages (de 0% à 100%) :
- Sensibilité : tous les malades sont-ils détectés ?
- Spécificité : tous les cas positifs sont-ils vraiment malades ?
La sensibilité (parfois appelée sélectivité) et la spécificité correspondent toutes deux à une mesure de performance du test [4]. En faisant vos essais, vous avez dû voir que ces deux mesures sont presque opposées : quand on tente d'améliorer l'une, on finit par détériorer l'autre. N'hésitez pas à partager en commentaire vos réflexions, ainsi que les performances que vous obtenez, en précisant la valeur du seuil que vous avez choisie. Les deux autres mesures, aux noms mystérieux, permettent quant à elles d'estimer la fiabilité du test, et méritent de plus amples explications :
- Valeur prédictive Positive (VPP) : si mon test est positif, puis-je croire que je suis malade ?
- Valeur prédictive Négative (VPN) : si mon test est négatif, puis-je croire que je suis sain ?
Faire confiance au résultat d'un test
Plaçons-nous du côté de l'utilisateur. Ce qui l'intéresse, c'est de savoir s'il peut faire confiance au résultat donné par le test. Cette confiance revêt deux aspects :
- Est-ce que les observations faites en laboratoire peuvent se généraliser à la vraie vie ?
- Si le test est positif (respectivement négatif), quelle est la chance que je sois vraiment malade (respectivement sain) ?
Le premier point est celui de la représentatitivé (au sens statistique) de l'échantillon test. Comme toujours, pour déduire des probabilités à partir d'observations réalisées sur un échantillon donné (c'est-à-dire à partir de statistiques), il faut que l'échantillon soit représentatif de la population générale. Autrement dit, on ne peut extrapoler les statistiques que sur une population similaire à l'échantillon testé. Mais un échantillon représentatif, ça peut être très difficile à obtenir pour un test épidémiologique, compliqué à fabriquer [5] ! On a tendance à estimer que la sensibilité et la spécificité estimées en laboratoire peuvent se généraliser. En revanche, ce n'est pas le cas pour les valeurs prédictives.
Le second point est, justement, celui des valeurs prédictives. Elles sont primordiales, ce sont elles qui indiquent la probabilité que le résultat du test soit interprétable ; c'est bien pour ça qu'elles s'appellent valeurs prédictives. J'aime illustrer la différence entre sensibilité et VPP avec ce que j'appelle la parabole de la pluie :
La question « S'il pleut, quelle est la chance que le sol soit mouillé ? » n'admet pas la même réponse que « Si le sol est mouillé, quelle est la chance qu'il pleuve ? »
Alors que la sensibilité demande quelle est la chance d'avoir un test positif pour un patient malade, la VPP renverse la relation entre ce qu'on sait et ce qu'on ignore : quelle est la chance d'être malade si le test est positif ? Dans ce cas, on sait que le test est positif, mais on ignore si le patient est malade.

Dans notre simulateur de test, elle correspond, parmi tous les patients entourés (positifs), à la proportion de ceux qui sont rouges (malades). Sous forme d'une fraction :
On peut exprimer la valeur prédictive négative d'une manière similaire — je laisse aux curieux le soin d'écrire la formule correspondante sous forme de fraction visuelle. Bon, tout ça est bien joli, mais si comme j'ai dit on ne peut pas généraliser ce calcul pour la population entière, comment fait-on pour déterminer les valeurs prédictives lorsque le test sera utilisé par de nouvelles personnes ? Il faut prendre du recul.
Quand l'échantillon n'est pas représentatif
Si on considère toute la population, il y a des individus qui n'ont pas été testés. Du coup, on va remplacer la distinction Testé Positif / Testé Négatif par Testé Positif / Autre (soit Testé Négatif, soit Pas Testé… on ne sait pas). Et on a encore la distinction Sain / Malade. Ce qui se traduit par le diagramme de Venn suivant :
Répétons la VPP, mais lue dans le diagramme de Venn : si je suis dans le cercle rouge, quelle est la chance que je sois aussi dans le cercle noir [6] ? — c'est-à-dire dans la région verte.
Ce raisonnement est un conditionnement probabiliste, et j'en avais déjà parlé quand j'évoquais la probabilité de se remettre du Covid19. Mettons un tout petit peu de formalisme pour mieux comprendre. La probabilité formelle correspondant à la VPP se note P(M \mid +) — ce qui se lit « P de M sachant plus ». Par définition du calcul de probabilités (cas favorables divisés par cas probables), et en formalisant la fraction visuelle qu'on a déjà vue plus haut :
P(M \mid +) = \frac{P(M\text{ et }+)}{P(+)}Inutile de se perdre dans le formalisme, ceci se comprend très bien dans le diagramme, quand on sait que la probabilité d'être dans un ensemble correspond simplement à sa taille [7]. L'égalité dit simplement que la VPP, c'est la taille de la région verte divisée par la taille du cercle rouge. Au lieu de conditionner par le cercle rouge, que se passe-t-il si on conditionne par le cercle noir (tous les malades) ?
P(+ \mid M) = \frac{P(M\text{ et }+)}{P(M)}Et là, un petit miracle se produit. On a fait apparaître P(M\text{ et }+) deux fois, ce qui permet de lier les deux égalités entre elles, en l'identifiant dans chacune :
P(M \mid +) P(+) = P(+ \mid M) P(M)Et enfin, en isolant VPP :
VPP = P(M \mid +) = \frac{P(+ \mid M)P(M)}{P(+)}Ces calculs fournissent une preuve à la dernière formule, qui s'appelle la formule de Bayes. Elle est fondamentale en probabilités, puisque c'est elle qui permet de renverser le conditionnement. Voici pourquoi je vous l'offre au passage, pour les plus courageux qui auront lu jusqu'ici.
- P(+ \mid M) est justement la sensibilité du test, qui est déterminée lors de la conception ;
- P(M) est la proportion d'individus malades dans la population. C'est ce qu'on appelle la prévalence de la maladie, et il s'agit encore une fois d'une valeur qu'on suppose « connue » — concernant le Covid19, les estimations sont difficiles. Une valeur raisonnable serait de l'ordre de 10% ou 20%, à défaut d'avoir mieux.
- Enfin, P(+) est plus difficile à calculer. Il requiert d'autres formules de probas que je vous épargne, et leur conclusion est que, si on note p la prévalence, Se la sensibilité et Sp la spécificité :
Il existe une autre formule, du même acabit, pour la VPN. Comme ces formules sont un peu dures à analyser, je vous propose, pour terminer, un dernier petit module interactif. Il permet de constater l'incidence qu'ont la prévalence, la sensibilité et la spécificité sur ses VPP et VPN.
Rentrez des pourcentages, entre 0 et 100. Je vous recommande vraiment de regarder ce qu'il se passe pour des valeurs faibles (moins de 20%), moyennes, et élevées (plus de 80%), pour chacune des trois.Val. préd. Positive | Val. préd. Négative | |
---|---|---|
Résultat | ?? % | ?? % |
Pour des compléments spécifiques aux tests PCR de dépistage du Covid19, je vous invite à vous référer à cet article qui adopte le point de vue médical.
Conclusion
Quelle conclusion peut-on tirer, au terme de cet article très long ? Principalement, que la conception d'un test de dépistage, c'est complexe. Bien souvent, ce n'est pas la compétence des experts qui est bloquante, mais les limitations biologiques, physiques, voire mathématiques. Mais aussi qu'en situation réelle, les valeurs prédictives sont hautement influencées par la prévalence de la maladie, qui est une propriété qui ne dépend absolument pas du test. Ce qui signifie qu'il faut se méfier des affirmations que les « tests sont fiables ». De quelle fiabilité nous parle-t-on ? De sensibilité ou de spécificité ? D'autant plus lorsque ces tests sont présentés comme la panacée qui rendra possible le déconfinement.
L'enjeu social est énorme.
Vous avez trouvé cet article intéressant ? Découvrez les autres contenus de ce site !
Pour ne rien manquer des futurs articles, inscrivez-vous à la newsletter
Notes
[1] Notons également que la science œuvre depuis longtemps à exprimer les différences de nature en différences de degré.
[2] Historiquement, la « vraie » définition de noir et blanc correspond bien à une image qui ne comporte que ces deux couleurs (et sinon on parle de niveaux de gris). Ce n'est pas un problème de dire noir et blanc quand il n'y a pas d'ambiguïté, en revanche, il vaut mieux être précis quand on parle des deux dans la même phrase…
[3] Dans la réalité, on ne peut jamais savoir (être sûr à 100%) qui est vraiment malade. Mais on peut croiser les résultats avec d'autre tests, ou bien s'appuyer sur un test de référence (qu'on appelle le gold standard) qui fait des mesures beaucoup plus invasives, par exemple.
[4] Pour plus d'informations concernant sensibilité et spécificité, lire l'article détaillé sur Wikipédia.
[5] Si les sondeurs politiques ont du mal à avoir des échantillons représentatifs alors qu'ils n'ont besoin que de poser une question aux gens, a fortiori, c'est encore plus difficile quand il faut leur faire passer un test biologique.
[6] Être dans deux cercles en même temps, ou dans deux formes quelconques, ça s'appelle être dans l'intersection des deux. Mathématiquement, l'intersection de deux ensembles (qu'on appelle A et B) se note A \cap B et correspond à l'ensemble des éléments qui appartiennent simultanément aux deux. Ainsi, rigoureusement, on ne note plus P(A\text{ et }B) mais P(A \cap B).
[7] Il s'agit plus précisément de sa taille rapportée à la taille de l'univers englobant (ici la taille de la population), mais cette constante s'annule lorsqu'on a un ratio de deux probabilités.
Partager l'article
Très intéressant ! Dans le cas du COVID19, il me semble nécessaire de ne pas oublier la clinique. Pour un diagnostic, il serait illusoire de se référer seulement à un test, comme tu le montre bien. On ne pourrait se passer de manifestations cliniques, ou symptômes, observés par le médecin, identifiés par le patient, visibles aux examens.
C’est très juste 🙂 On pourrait d’ailleurs essayer d’inclure ces observations dans le calcul des probabilités, mais cela deviendrait vite trop compliqué à suivre (et nécessiterait des données observationnelles fiables)
Le confinement suppose que TOUT LE MONDE est positif, ce qui est absurde et pose la question du déconfinement indispensable à notre vraie survie à tous.
Il faut donc tester. La question du faux positif est secondaire: il doit se confiner comme les autres… Le faux négatif est un problème. Peut on accepter de le laisser en liberté? Je crois que oui.
Dans cette partie:
« on n’a pas besoin de connaître la différence entre les tests sérologiques et les tests PCR. On peut considérer le test comme une boîte noire — c’est-à-dire une machine dont le fonctionnement est inconnu — qui nous indique si on est malade ou non. »
et dans la suite, peut-être faudrait-il remplacer « sain » et « malade » par « non infecté » et « infecté » ? En effet, beaucoup d’infectés ne sont pas malades et on espère que les porteurs d’anticorps sont immunisés au moins temporairement (et donc ne seront pas malades à l’avenir), ce qui impliquerait qu’une personne ayant un résultat positif à un test sérologique serait plutôt « saine » (= ni future malade, ni source de contamination)
Merci pour le commentaire, c’est très juste ! J’essayais d’avoir un raisonnement suffisamment simple pour ne pas faire peur à ceux qui n’ont jamais fait de stats. Je trouvais que le test « malade » était plus parlant que le test « infecté ». Mais cela vaut bien que je précise quelque part qu’il est aussi important de savoir si on est infecté sans être malade 🙂
Le sujet dont vous parlez ici est-il bien le même que https://en.wikipedia.org/wiki/Base_rate_fallacy ?
C’est tout à fait ça — et par ailleurs je ne connaissais pas le nom de l’argument fallacieux, merci !