Diagnostic médical : pourquoi ChatGPT reste peu fiable en matière de santé
Consulter ChatGPT pour un diagnostic médical est devenu un réflexe pour beaucoup, surtout quand un symptôme tombe mal, la nuit ou entre deux rendez-vous. L’outil répond vite, explique bien, et donne parfois l’impression de “comprendre” ce qui se passe. Pourtant, une étude publiée dans Nature Medicine montre que, face à des situations de santé présentées par de vraies personnes, les chatbots ne font pas mieux que les méthodes classiques… et peuvent même faire moins bien.
L’enjeu dépasse la simple précision d’un résultat. Ce qui inquiète les chercheurs, c’est le décalage entre une réponse fluide, rassurante, et la réalité clinique, beaucoup plus exigeante. Dans un domaine où quelques heures peuvent compter, l’illusion de fiabilité devient un risque à part entière.
Une étude “en conditions réelles” qui refroidit les promesses
Sur le papier, les modèles de langage brillent souvent sur des tests standardisés. Ils savent recracher des connaissances médicales, citer des symptômes typiques, proposer des hypothèses plausibles. Le problème, c’est qu’un échange avec un patient n’est pas un QCM.
Dans l’étude de Nature Medicine, près de 1 300 participants ont été confrontés à des scénarios médicaux conçus par des médecins, puis répartis entre un groupe “chatbot” et un groupe “méthodes habituelles” (souvent un moteur de recherche, ou son propre jugement). Résultat : l’assistance par chatbot n’améliore pas la qualité des décisions, et la performance se dégrade quand l’IA doit composer avec une conversation humaine, partielle, parfois confuse.
Autre point marquant : les participants qui utilisaient un moteur de recherche s’en sortaient parfois mieux pour identifier la bonne situation que ceux aidés par un chatbot. Dit autrement, l’IA peut connaître la médecine, mais échouer à guider un non-spécialiste au bon moment.
Le vrai piège : une réponse “propre” qui sonne comme une certitude
Google renvoie une liste de liens. ChatGPT, lui, construit un raisonnement. Il met en ordre, donne un ton calme, propose une marche à suivre. Dans la vie quotidienne, c’est précisément ce que l’on cherche quand on s’inquiète.
Sauf que cette mise en scène peut masquer l’incertitude. Les chercheurs et cliniciens impliqués dans l’étude décrivent un “mélange” fréquent : de bons conseils à côté de recommandations discutables, voire dangereuses. Et comme tout est raconté sur le même ton, l’utilisateur a du mal à trier.
L’exemple rapporté par Science News est parlant : une variation minime dans la description d’un mal de tête peut faire basculer l’IA d’une urgence potentielle vers un simple conseil de repos. Avec, en toile de fond, le fait que certains tableaux graves (comme une hémorragie sous-arachnoïdienne) se jouent justement sur des signaux d’alerte à repérer.
Pourquoi l’IA trébuche : le dialogue médecin-patient n’est pas un texte
Un médecin ne travaille pas uniquement avec vos mots. Il observe votre respiration, votre couleur de peau, votre posture, vos hésitations. Il pose des questions ciblées, reformule, recadre, cherche ce que vous avez oublié de dire. Même la façon dont vous minimisez une douleur peut être un indice.
Le chatbot, lui, n’a accès qu’à ce que vous tapez. Or les participants de l’étude ont souvent donné les informations “au compte-gouttes”, comme on le fait naturellement dans une conversation. Problème : les modèles peuvent se laisser distraire par un détail secondaire, ou manquer l’élément clé qui aurait dû déclencher une alerte.
À cela s’ajoute une instabilité gênante : deux formulations proches peuvent produire deux réponses très différentes. L’Université d’Oxford parle d’un vrai “breakdown” de communication à double sens : l’utilisateur ne sait pas quoi fournir, et l’IA n’aide pas toujours à aller chercher ce qui manque.
Un usage massif… et des risques très concrets
Le sujet n’est pas marginal. OpenAI indique que plus de 40 millions de personnes se tournent chaque jour vers ChatGPT pour des questions de santé, et qu’une part importante des utilisateurs aborde ce thème régulièrement.
À lire aussi
Le danger principal, c’est le retard de soins. Si une réponse semble cohérente et “docte”, l’utilisateur peut se rassurer à tort, attendre, ou éviter de consulter. Les chercheurs citent justement le risque de passer à côté d’une situation urgente parce que l’outil a orienté vers une hypothèse bénigne, ou parce que l’utilisateur n’a pas compris que certains signes imposent d’appeler rapidement un professionnel.
En France, la Haute Autorité de santé insiste sur un point : l’IA générative doit être utilisée avec prudence, et son rôle reste celui d’un outil d’appui, pas d’un diagnostic autonome pour le grand public. La HAS a aussi publié des recommandations de bon usage, notamment sur les risques de mauvaises pratiques et de partage de données sensibles.
Alors, on jette tout ? Non. On change l’objectif
Interdire aux gens de chercher des infos santé en ligne n’a jamais fonctionné. L’enjeu, c’est de remettre ChatGPT à sa place : un outil d’explication, pas un arbitre médical.
Utilisé intelligemment, il peut aider à comprendre un compte rendu, clarifier des termes, préparer des questions pour un rendez-vous, ou comparer des recommandations officielles. Dès qu’il s’agit de “trancher” entre plusieurs diagnostics possibles, ou de décider seul de ne pas consulter, le risque grimpe.
Une règle simple aide à garder le cap : si un symptôme est nouveau, intense, inhabituel, persistant, ou s’aggrave, le bon réflexe reste la consultation (cabinet, téléconsultation, urgences selon le tableau). L’IA peut accompagner la compréhension, mais elle ne doit pas être l’étape qui remplace l’évaluation clinique.
Ce que cette étude dit aussi sur la “médecine par IA” de demain
Le paradoxe, c’est que les modèles progressent vite, et que certains projets montrent des promesses en dialogue médical… en environnement contrôlé. Les chercheurs d’Oxford, eux, appellent à des évaluations plus proches d’essais cliniques : des tests avec de vrais utilisateurs, sur des cas réalistes, avant de déployer à grande échelle.
Autrement dit, la question n’est pas “l’IA sait-elle de la médecine ?”. La vraie question devient : “l’IA sait-elle guider un humain en situation d’incertitude, sans l’induire en confiance ?”. Tant que la réponse reste fragile, le médecin demeure irremplaçable, parce qu’il relie vos symptômes à votre contexte, à vos antécédents, et à des signaux que vous ne voyez pas vous-même.
La santé n’est pas un simple dialogue
Le fantasme du ChatGPT diagnostic médical instantané se heurte à une réalité simple : la santé n’est pas un exercice de style. L’IA peut sembler brillante, mais l’étude publiée dans Nature Medicine montre qu’en interaction réelle, elle ne garantit ni le bon diagnostic, ni la bonne décision, et qu’elle peut même brouiller le tri entre le grave et le bénin.
S’informer reste légitime, surtout quand le système de soins est sous tension. Mais la bonne utilisation consiste à mieux comprendre… pour mieux consulter, pas pour s’auto-soigner à l’aveugle.
Retrouvez plus d’article sur le même thème ici.