Résultats préliminaires - Première vague

HARMONIA

Humains (ARM + médecins) vs IA en Régulation Médicale, One-to-one Impact Analysis

Description du Projet

HARMONIA est une étude de cohorte prospective avec inclusion continue, évaluant la performance d'un grand modèle de langage (LLM) par rapport aux Assistants de Régulation Médicale (ARM) et aux médecins régulateurs du SAS-Centre 15 du CHU de Lille. L'étude repose sur des scénarios d'appels simulés standardisés (corpus SimSamu), pris en charge par des binômes ARM–médecin régulateur et analysés simultanément par l'IA. L'objectif est de déterminer si l'IA peut atteindre, voire surpasser, la performance humaine en matière de triage téléphonique selon l'échelle de tri ARM.

Design

Cohorte prospective avec inclusion continue, double insu et randomisation intra-protocole

Population

60 scénarios simulés prévus
13 médecins régulateurs
10 ARMs volontaires

Période

Janvier - Mars 2026
(3 mois d'inclusion)

Centre

SAS-Centre 15
CHU de Lille

Objectifs

Principal : Comparer la performance de triage de l'IA (LLM) au triage effectif des ARMs du SAS-Centre 15 du CHU de Lille par rapport au gold-standard de l'échelle de tri ARM.

Secondaires :

Concordance avec la décision médicale de régulation (selon décision finale de régulation)
Analyse de ressenti sur les cas (ARMs + médecins) via questionnaire NASA-TLX
Fiabilité et rapidité de la transcription et de l'analyse sémantique
Fiabilité des moyens à engager prédits par l'IA

Méthodologie

Chaque scénario est pris en charge par un binôme ARM–médecin régulateur, constitué de manière interchangeable à partir d'un pool de volontaires. L'appariement est réalisé selon un schéma de double insu et une randomisation intra-protocole. Chaque volontaire est exposé à l'ensemble des cas simulés, assurant une évaluation croisée complète.

Le gold-standard est mixte : application stricto sensu de l'échelle de tri ARM sur les données de l'appel et avis d'experts (consortium de 3 médecins en aveugle).

Le bras « IA » a été opérationnalisé au moyen d'un grand modèle de langage de dernière génération (famille Claude). Pour chaque scénario, le modèle recevait le verbatim de qualité gold de l'appel et produisait, en raisonnant chaque cas indépendamment, un niveau de tri ARM (N1–N5), les drapeaux rouges identifiés et une justification clinique, sous un cadrage « safety-first » (préférence pour le sur-tri prudent en cas de doute).

Précision de transparence

Le protocole initial mentionnait un « modèle GPT ». Le jeu de prédictions disponible pour cette première vague a été produit avec un LLM de la famille Claude ; la thèse présente donc les résultats effectivement obtenus. L'évaluation d'un pipeline GPT dédié, sur audio (et non sur transcription), avec probabilités par classe, constitue une perspective directe.

Résultats Préliminaires (Première Vague)

La première vague couvre 30 des 60 scénarios prévus. Après normalisation des codages, corrections documentées et exclusion de trois ARM à couverture insuffisante (< 25/30 scénarios), 11 ARM et 11 médecins sont évaluables, totalisant 328 observations ARM et 328 observations médecin, appariées à 30 prédictions IA.

Performance comparée vs gold-standard ARM (30 scénarios appariés)

Métrique	ARM	Médecin	IA (LLM)
Accord exact	60,0 %	36,7 %	36,7 %
Accord à ±1 niveau	100 %	73,3 %	83,3 %
MAE	0,400	0,933	0,833
RMSE	0,632	1,265	1,140
Biais (prédit − gold)	−0,333	−0,733	−0,633
κ pondéré quadratique	0,766	0,403	0,456
ρ de Spearman	0,813	0,572	0,585
F1 macro	0,550	0,277	0,262

Tableau 4 — Performance comparée ARM / médecin / IA vis-à-vis du gold-standard (30 scénarios appariés ; métriques fondées sur le mode des évaluations humaines).

Accord avec le gold-standard sur l'ensemble des observations humaines

Métrique (toutes observations)	ARM (n = 328)	Médecin (n = 328)
Accord exact	50,9 %	38,4 %
Accord à ±1 classe	95,7 %	73,8 %
MAE	0,534	0,933
RMSE	0,787	1,295
κ pondéré quadratique	0,694	0,528
ρ de Spearman	0,713	0,588
F1 macro	0,466	0,352

Tableau 5 — Accord avec le gold-standard sur l'ensemble des observations humaines.

Résultat marquant

Le triage ARM constitue le socle de référence le plus robuste (κ 0,77 ; accord à ±1 classe 100 %). L'IA atteint un niveau d'accord comparable à celui des médecins (κ 0,46 vs 0,40) tout en les devançant sur l'accord à ±1 classe et l'erreur moyenne, avec un profil systématiquement prudent « safety-first » et aucune sous-estimation sévère. Surtout, ses divergences les plus marquées surviennent précisément sur les scénarios où le gold-standard ARM — et les ARM eux-mêmes — sous-trient (déficit neurologique aigu du sujet jeune, altération de conscience d'une personne sans domicile fixe). Son profil d'erreur est ainsi complémentaire de celui des ARM, ce qui plaide pour un dispositif hybride humain-IA plutôt qu'une substitution.

Enfin, la difficulté perçue par les ARM ne prédit pas l'erreur réelle : la difficulté moyenne perçue est identique que la cotation soit exacte (2,57/5) ou erronée d'au moins un niveau (2,59/5 ; Mann-Whitney, p = 0,87). Ce résultat plaide pour une aide IA systématique plutôt que sélective.

Analyses Statistiques

Métriques principales

MAE, RMSE, Kappa pondéré, accord exact et ±1 classe, AUROC

Score composite

F1 micro/macro, corrélation de Spearman, score de Brier multiclasse

Analyses secondaires

Graphiques de Bland-Altman, matrices de confusion, diagrammes de fiabilité

Outils

R® (v4.2.2–4.4.0) & Python 3.12
Seuil α = 5%, correction de Bonferroni

Éthique et Données

L'étude ne modifie aucunement la prise en charge des patients. Elle repose exclusivement sur des données simulées (corpus SimSamu, anonymisées par défaut, chiffrées AES-256). Les modèles d'IA ne stockent ni n'archivent les bandes sonores, et aucun entraînement n'est réalisé sur ces données. Consentement signé par les ARM et médecins participants. Analyse sur l'espace projet sécurisé du CHU de Lille (référentiel SNDS), seuls des résultats agrégés étant exportés.

Calendrier Prévisionnel

Décembre 2025

Rédaction protocole, validation conseil scientifique, déclaration DPO

Janvier 2026

Début des inclusions

Mars 2026

Fin des inclusions

Avril 2026

Fin d'extraction des données

Juin 2026

Analyse première vague (30 scénarios) et validation des résultats

Octobre 2026

Rapport final (60 scénarios, gold-standard mixte)

2026-2027

Publication dans revue à comité de relecture

Équipe du Projet

André Filipe Gomes Botelho

Investigateur Principal

Interne en Médecine d'Urgence
CHU de Lille

Dr Flavie Vanbrugge

Directrice de thèse

Responsable UF SAMU
CHU de Lille

Dr Edouard Lansiaux

Comité Scientifique

Docteur Junior Médecine d'Urgence
Ingénieur IA
CHU de Lille

Dr Jonathan Hennache

Comité Scientifique

UF SAMU
CHU de Lille

Dr Roch Joly

Comité Scientifique

Responsable Pôle Urgences
CHU de Lille