Humains (ARM + médecins) vs IA en Régulation Médicale, One-to-one Impact Analysis
HARMONIA est une étude de cohorte prospective avec inclusion continue, évaluant la performance d'un grand modèle de langage (LLM) par rapport aux Assistants de Régulation Médicale (ARM) et aux médecins régulateurs du SAS-Centre 15 du CHU de Lille. L'étude repose sur des scénarios d'appels simulés standardisés (corpus SimSamu), pris en charge par des binômes ARM–médecin régulateur et analysés simultanément par l'IA. L'objectif est de déterminer si l'IA peut atteindre, voire surpasser, la performance humaine en matière de triage téléphonique selon l'échelle de tri ARM.
Cohorte prospective avec inclusion continue, double insu et randomisation intra-protocole
60 scénarios simulés prévus
13 médecins régulateurs
10 ARMs volontaires
Janvier - Mars 2026
(3 mois d'inclusion)
SAS-Centre 15
CHU de Lille
Principal : Comparer la performance de triage de l'IA (LLM) au triage effectif des ARMs du SAS-Centre 15 du CHU de Lille par rapport au gold-standard de l'échelle de tri ARM.
Secondaires :
Chaque scénario est pris en charge par un binôme ARM–médecin régulateur, constitué de manière interchangeable à partir d'un pool de volontaires. L'appariement est réalisé selon un schéma de double insu et une randomisation intra-protocole. Chaque volontaire est exposé à l'ensemble des cas simulés, assurant une évaluation croisée complète.
Le gold-standard est mixte : application stricto sensu de l'échelle de tri ARM sur les données de l'appel et avis d'experts (consortium de 3 médecins en aveugle).
Le bras « IA » a été opérationnalisé au moyen d'un grand modèle de langage de dernière génération (famille Claude). Pour chaque scénario, le modèle recevait le verbatim de qualité gold de l'appel et produisait, en raisonnant chaque cas indépendamment, un niveau de tri ARM (N1–N5), les drapeaux rouges identifiés et une justification clinique, sous un cadrage « safety-first » (préférence pour le sur-tri prudent en cas de doute).
Le protocole initial mentionnait un « modèle GPT ». Le jeu de prédictions disponible pour cette première vague a été produit avec un LLM de la famille Claude ; la thèse présente donc les résultats effectivement obtenus. L'évaluation d'un pipeline GPT dédié, sur audio (et non sur transcription), avec probabilités par classe, constitue une perspective directe.
La première vague couvre 30 des 60 scénarios prévus. Après normalisation des codages, corrections documentées et exclusion de trois ARM à couverture insuffisante (< 25/30 scénarios), 11 ARM et 11 médecins sont évaluables, totalisant 328 observations ARM et 328 observations médecin, appariées à 30 prédictions IA.
| Métrique | ARM | Médecin | IA (LLM) |
|---|---|---|---|
| Accord exact | 60,0 % | 36,7 % | 36,7 % |
| Accord à ±1 niveau | 100 % | 73,3 % | 83,3 % |
| MAE | 0,400 | 0,933 | 0,833 |
| RMSE | 0,632 | 1,265 | 1,140 |
| Biais (prédit − gold) | −0,333 | −0,733 | −0,633 |
| κ pondéré quadratique | 0,766 | 0,403 | 0,456 |
| ρ de Spearman | 0,813 | 0,572 | 0,585 |
| F1 macro | 0,550 | 0,277 | 0,262 |
Tableau 4 — Performance comparée ARM / médecin / IA vis-à-vis du gold-standard (30 scénarios appariés ; métriques fondées sur le mode des évaluations humaines).
| Métrique (toutes observations) | ARM (n = 328) | Médecin (n = 328) |
|---|---|---|
| Accord exact | 50,9 % | 38,4 % |
| Accord à ±1 classe | 95,7 % | 73,8 % |
| MAE | 0,534 | 0,933 |
| RMSE | 0,787 | 1,295 |
| κ pondéré quadratique | 0,694 | 0,528 |
| ρ de Spearman | 0,713 | 0,588 |
| F1 macro | 0,466 | 0,352 |
Tableau 5 — Accord avec le gold-standard sur l'ensemble des observations humaines.
Le triage ARM constitue le socle de référence le plus robuste (κ 0,77 ; accord à ±1 classe 100 %). L'IA atteint un niveau d'accord comparable à celui des médecins (κ 0,46 vs 0,40) tout en les devançant sur l'accord à ±1 classe et l'erreur moyenne, avec un profil systématiquement prudent « safety-first » et aucune sous-estimation sévère. Surtout, ses divergences les plus marquées surviennent précisément sur les scénarios où le gold-standard ARM — et les ARM eux-mêmes — sous-trient (déficit neurologique aigu du sujet jeune, altération de conscience d'une personne sans domicile fixe). Son profil d'erreur est ainsi complémentaire de celui des ARM, ce qui plaide pour un dispositif hybride humain-IA plutôt qu'une substitution.
Enfin, la difficulté perçue par les ARM ne prédit pas l'erreur réelle : la difficulté moyenne perçue est identique que la cotation soit exacte (2,57/5) ou erronée d'au moins un niveau (2,59/5 ; Mann-Whitney, p = 0,87). Ce résultat plaide pour une aide IA systématique plutôt que sélective.
MAE, RMSE, Kappa pondéré, accord exact et ±1 classe, AUROC
F1 micro/macro, corrélation de Spearman, score de Brier multiclasse
Graphiques de Bland-Altman, matrices de confusion, diagrammes de fiabilité
R® (v4.2.2–4.4.0) & Python 3.12
Seuil α = 5%, correction de Bonferroni
L'étude ne modifie aucunement la prise en charge des patients. Elle repose exclusivement sur des données simulées (corpus SimSamu, anonymisées par défaut, chiffrées AES-256). Les modèles d'IA ne stockent ni n'archivent les bandes sonores, et aucun entraînement n'est réalisé sur ces données. Consentement signé par les ARM et médecins participants. Analyse sur l'espace projet sécurisé du CHU de Lille (référentiel SNDS), seuls des résultats agrégés étant exportés.
Rédaction protocole, validation conseil scientifique, déclaration DPO
Début des inclusions
Fin des inclusions
Fin d'extraction des données
Analyse première vague (30 scénarios) et validation des résultats
Rapport final (60 scénarios, gold-standard mixte)
Publication dans revue à comité de relecture