Diagnostic médical : pourquoi ChatGPT reste peu fiable en matière de santé

Publié par Killian Ravon le 21 Fév 2026 à 17:30

Consulter ChatGPT pour un diagnostic médical est devenu un réflexe pour beaucoup, surtout quand un symptôme tombe mal, la nuit ou entre deux rendez-vous. L’outil répond vite, explique bien, et donne parfois l’impression de “comprendre” ce qui se passe. Pourtant, une étude publiée dans Nature Medicine montre que, face à des situations de santé présentées par de vraies personnes, les chatbots ne font pas mieux que les méthodes classiques… et peuvent même faire moins bien.

La suite après cette publicité

Femme inquiète devant un ordinateur affichant une interface de chat de type ChatGPT pour des conseils de santé, sans texte lisible à l’écran. — Les IA peuvent donner des conseils généraux, mais un diagnostic médical fiable reste du ressort d’un professionnel de santé.

L’enjeu dépasse la simple précision d’un résultat. Ce qui inquiète les chercheurs, c’est le décalage entre une réponse fluide, rassurante, et la réalité clinique, beaucoup plus exigeante. Dans un domaine où quelques heures peuvent compter, l’illusion de fiabilité devient un risque à part entière.

La vidéo du jour à ne pas manquer

Le diagnostic passe d’abord par l’échange… mais aussi par ce que l’on ne dit pas. Crédit : Mona Hassan Abo-Abda.

La suite après cette publicité

Une étude “en conditions réelles” qui refroidit les promesses

Sur le papier, les modèles de langage brillent souvent sur des tests standardisés. Ils savent recracher des connaissances médicales, citer des symptômes typiques, proposer des hypothèses plausibles. Le problème, c’est qu’un échange avec un patient n’est pas un QCM.

Dans l’étude de Nature Medicine, près de 1 300 participants ont été confrontés à des scénarios médicaux conçus par des médecins, puis répartis entre un groupe “chatbot” et un groupe “méthodes habituelles” (souvent un moteur de recherche, ou son propre jugement). Résultat : l’assistance par chatbot n’améliore pas la qualité des décisions, et la performance se dégrade quand l’IA doit composer avec une conversation humaine, partielle, parfois confuse.

Autre point marquant : les participants qui utilisaient un moteur de recherche s’en sortaient parfois mieux pour identifier la bonne situation que ceux aidés par un chatbot. Dit autrement, l’IA peut connaître la médecine, mais échouer à guider un non-spécialiste au bon moment.

La suite après cette publicité

La télémédecine reste un acte médical, avec un professionnel en face. Crédit : Ceibos.

Le vrai piège : une réponse “propre” qui sonne comme une certitude

Google renvoie une liste de liens. ChatGPT, lui, construit un raisonnement. Il met en ordre, donne un ton calme, propose une marche à suivre. Dans la vie quotidienne, c’est précisément ce que l’on cherche quand on s’inquiète.

Sauf que cette mise en scène peut masquer l’incertitude. Les chercheurs et cliniciens impliqués dans l’étude décrivent un “mélange” fréquent : de bons conseils à côté de recommandations discutables, voire dangereuses. Et comme tout est raconté sur le même ton, l’utilisateur a du mal à trier.

La suite après cette publicité

L’exemple rapporté par Science News est parlant : une variation minime dans la description d’un mal de tête peut faire basculer l’IA d’une urgence potentielle vers un simple conseil de repos. Avec, en toile de fond, le fait que certains tableaux graves (comme une hémorragie sous-arachnoïdienne) se jouent justement sur des signaux d’alerte à repérer.

À distance, l’équipement aide… mais ne remplace pas l’examen clinique. Crédit : Intel Free Press.

Pourquoi l’IA trébuche : le dialogue médecin-patient n’est pas un texte

Un médecin ne travaille pas uniquement avec vos mots. Il observe votre respiration, votre couleur de peau, votre posture, vos hésitations. Il pose des questions ciblées, reformule, recadre, cherche ce que vous avez oublié de dire. Même la façon dont vous minimisez une douleur peut être un indice.

La suite après cette publicité

Le chatbot, lui, n’a accès qu’à ce que vous tapez. Or les participants de l’étude ont souvent donné les informations “au compte-gouttes”, comme on le fait naturellement dans une conversation. Problème : les modèles peuvent se laisser distraire par un détail secondaire, ou manquer l’élément clé qui aurait dû déclencher une alerte.

À cela s’ajoute une instabilité gênante : deux formulations proches peuvent produire deux réponses très différentes. L’Université d’Oxford parle d’un vrai “breakdown” de communication à double sens : l’utilisateur ne sait pas quoi fournir, et l’IA n’aide pas toujours à aller chercher ce qui manque.

Close-up of a smartphone showing ChatGPT details on the OpenAI website, held by a person. — ChatGPT n’est pas un médecin. Photo by Sanket Mishra

La suite après cette publicité

Un usage massif… et des risques très concrets

Le sujet n’est pas marginal. OpenAI indique que plus de 40 millions de personnes se tournent chaque jour vers ChatGPT pour des questions de santé, et qu’une part importante des utilisateurs aborde ce thème régulièrement.

Alors, on jette tout ? Non. On change l’objectif

Interdire aux gens de chercher des infos santé en ligne n’a jamais fonctionné. L’enjeu, c’est de remettre ChatGPT à sa place : un outil d’explication, pas un arbitre médical.

La suite après cette publicité

Utilisé intelligemment, il peut aider à comprendre un compte rendu, clarifier des termes, préparer des questions pour un rendez-vous, ou comparer des recommandations officielles. Dès qu’il s’agit de “trancher” entre plusieurs diagnostics possibles, ou de décider seul de ne pas consulter, le risque grimpe.

Une règle simple aide à garder le cap : si un symptôme est nouveau, intense, inhabituel, persistant, ou s’aggrave, le bon réflexe reste la consultation (cabinet, téléconsultation, urgences selon le tableau). L’IA peut accompagner la compréhension, mais elle ne doit pas être l’étape qui remplace l’évaluation clinique.

Les outils numériques peuvent informer, mais ils ne posent pas un diagnostic à eux seuls. Crédit : Daniel Sone.

La suite après cette publicité

Ce que cette étude dit aussi sur la “médecine par IA” de demain

Le paradoxe, c’est que les modèles progressent vite, et que certains projets montrent des promesses en dialogue médical… en environnement contrôlé. Les chercheurs d’Oxford, eux, appellent à des évaluations plus proches d’essais cliniques : des tests avec de vrais utilisateurs, sur des cas réalistes, avant de déployer à grande échelle.

Autrement dit, la question n’est pas “l’IA sait-elle de la médecine ?”. La vraie question devient : “l’IA sait-elle guider un humain en situation d’incertitude, sans l’induire en confiance ?”. Tant que la réponse reste fragile, le médecin demeure irremplaçable, parce qu’il relie vos symptômes à votre contexte, à vos antécédents, et à des signaux que vous ne voyez pas vous-même.

La santé n’est pas un simple dialogue

Le fantasme du ChatGPT diagnostic médical instantané se heurte à une réalité simple : la santé n’est pas un exercice de style. L’IA peut sembler brillante, mais l’étude publiée dans Nature Medicine montre qu’en interaction réelle, elle ne garantit ni le bon diagnostic, ni la bonne décision, et qu’elle peut même brouiller le tri entre le grave et le bénin.

La suite après cette publicité

S’informer reste légitime, surtout quand le système de soins est sous tension. Mais la bonne utilisation consiste à mieux comprendre… pour mieux consulter, pas pour s’auto-soigner à l’aveugle.

Retrouvez plus d’article sur le même thème ici.

Diagnostic médical : pourquoi ChatGPT reste peu fiable en matière de santé

Une étude “en conditions réelles” qui refroidit les promesses

Le vrai piège : une réponse “propre” qui sonne comme une certitude

Pourquoi l’IA trébuche : le dialogue médecin-patient n’est pas un texte

Un usage massif… et des risques très concrets

À lire aussi

Alors, on jette tout ? Non. On change l’objectif

Ce que cette étude dit aussi sur la “médecine par IA” de demain

La santé n’est pas un simple dialogue

Laissez un commentaire