Terminé - Mémoire M2

EIMLIA-TEU

Cadre de simulation hybride pour l'évaluation pré-clinique du triage assisté par IA aux urgences

Description du Projet

EIMLIA-TEU est un cadre de simulation hybride pour l'évaluation pré-clinique du triage assisté par IA selon quatre dimensions simultanées : clinique, organisationnelle, économique et technique. Il combine une Simulation à Événements Discrets (DES), un Système Multi-Agents (MAS), des jumeaux numériques 4D (structurel, comportemental, temporel, technique), du process mining et une formalisation graphique système, calibrés sur 600 000 passages aux urgences anonymisés (CHU Lille, 2018–2023).

Les trois architectures IA de la preuve de concept TIAEU (TRIAGEMASTER : Doc2Vec + MLP ; URGENTIAPARSE : FlauBERT + XGBoost ; EMERGINET : JEPA + VICReg) ont été réentraînées sur 340 536 patients et évaluées selon un cadre double régime conçu pour dissocier l'approximation algorithmique de la validité clinique.

Approche

Simulation hybride DES + Systèmes Multi-Agents, jumeaux numériques 4D

Données de calibration

600 000 passages aux urgences (CHU Lille, 2018–2023)
18,5 M de logs d'événements (process mining)

Cohorte de réentraînement

340 536 patients
(découpage 60:20:20 ; test n = 68 108)

Modèles

TRIAGEMASTER (NLP)
URGENTIAPARSE (LLM)
EMERGINET (JEPA)

Cadre d'évaluation double régime

La principale contribution méthodologique est une séparation explicite entre deux régimes d'évaluation, conçue pour rendre visible un artefact que la littérature sur le triage par IA tend à laisser implicite.

R1 — Approximation algorithmique : entraînement et évaluation alignés sur le label idéal reconstruit de l'échelle FRENCH. Mesure la capacité de chaque architecture à récupérer l'algorithme déterministe (jeu de test n = 68 108).
R2 — Validité clinique : évaluation contre un consensus de 5 médecins urgentistes seniors sur un sous-échantillon stratifié de 3 000 cas, modéré en externe par le Dr R. Dewilde (CH Maubeuge, co-investigateur TRIADE, indépendant de l'équipe IA).

Résultats clés — Benchmarking double régime

Architecture	R1 (κw)	R2 (κw, projeté)
URGENTIAPARSE (LLM)	0,9956	0,81 [0,78 ; 0,84]
EMERGINET (JEPA)	0,9391	0,74 [0,71 ; 0,77]
TRIAGEMASTER (NLP)	0,8945	0,69 [0,66 ; 0,72]
Baseline IDE (littérature)	0,65	0,65
Seuil de déploiement	≥ 0,80	≥ 0,80

Benchmarking double régime. R1 vs. labels idéaux FRENCH (approximation algorithmique, n = 68 108). R2 vs. consensus de 5 médecins experts (validité clinique, n = 3 000). IC à 95 % par bootstrap entre crochets.

Résultat central

Sous R1, les trois architectures convergent vers κw ≥ 0,89, confirmant la capacité d'approximation algorithmique mais non la validité clinique. Sous R2, toutes dépassent la baseline IDE (κw ≈ 0,65), mais seul URGENTIAPARSE (κw = 0,81) atteint le seuil de déploiement κw ≥ 0,80. L'écart R1→R2 de ≈ 0,18, répliqué sur les trois architectures, quantifie l'artefact de l'entraînement sur des labels reconstruits algorithmiquement : la littérature antérieure évaluant l'IA de triage contre de tels labels sur-estime probablement la validité clinique de 0,10 à 0,20 en κw.

Résultats de simulation

Les runs hybrides DES-MAS (mode rapide 3 jours), sous les performances R2 corrigées, produisent la variation de durée moyenne de séjour (∆DMS) suivante par rapport au baseline manuel :

Scénario	∆ DMS	Concordance IA
S2b — URGENTIAPARSE	−7,1 % [−9,4 ; −4,8]	76,5 %
S2a — TRIAGEMASTER	−3,2 % [−5,5 ; −1,0]	62,3 %
S2c — EMERGINET	+1,2 % [−0,8 ; +3,1]	91,0 %
S3 — Crise hybride (charge 200 %)	+8,8 %	90,5 %

Comparaison des scénarios (runs mode rapide 3 jours, injection d'erreur corrigée R2). Le scénario de crise hybride préserve la sécurité clinique (concordance 90,5 %). Les stress tests sont conformes aux cibles (SURGE n = 220 ≥ 180 ; disponibilité 99,1 % ≥ 99,0 %).

URGENTIAPARSE est la seule architecture qui atteint à la fois le seuil de validité clinique R2 et produit un bénéfice de flux écologique convergent (∆DMS = −7,1 %). Le cadre documente également le « paradoxe de simulation URGENTIAPARSE » : dans les cycles antérieurs sur labels enregistrés, le modèle produisait un ∆DMS apparent de −13,2 % alors que la sensibilité critique s'effondrait à ≈ 0,002 — un danger de sécurité invisible à toute métrique prédictive isolée, détectable uniquement par la simulation multidimensionnelle.

Projection médico-économique (CHEERS 2022 + PSA)

Analyse de sensibilité probabiliste (Monte Carlo, 50 000 itérations), scénario réaliste :

Scénario	ROI 3 ans (IC95 %)	ICER	P(dominant)
Pessimiste	80 % [−30 ; 320]	12 500 €/QALY	8 %
Réaliste	480 % [210 ; 1 250]	1 840 €/QALY [dominé ; 8 300]	32 %
Optimiste	2 100 % [890 ; 4 100]	dominant	64 %

Résultats PSA Monte Carlo (50 000 itérations) par scénario. L'intervention est coût-efficace au seuil HAS 50 000 €/QALY dans 99,4 % des simulations (courbe d'acceptabilité coût-efficacité, CEAC).

Les cinq paramètres expliquant 87 % de la variance du ROI sont, par ordre décroissant : taux d'hospitalisations inappropriées évitées (38 %), tarif unitaire GHS (21 %), taux d'imagerie évitée (12 %), volume annuel de passages (10 %) et latence P95 d'inférence IA (6 %). Une projection déterministe antérieure (ROI 10 260 %, ICER 93 €/QALY) a été explicitement retirée au profit de ces chiffres probabilistes.

Dimensions d'Évaluation

Clinique

κw pondéré R1/R2, sensibilité critique, taux de sous-triage

Organisationnelle

Durée de séjour, temps d'attente, taux de congestion

Économique

ROI, ICER, CEAC via PSA Monte Carlo (CHEERS 2022)

Technique

Disponibilité, latence d'inférence, MTTR

Éthique

Étude rétrospective monocentrique (urgences adultes CHU Lille, 2018–2023), approuvée par le CESREES, méthodologie MR-004 avec déclaration N° 27797006 auprès du Health Data Hub. Conforme RGPD, référentiel CNIL MR-004.

Conclusion et étape suivante

EIMLIA-TEU démontre que les modèles d'IA de triage entraînés sur des labels algorithmiques récupèrent l'algorithme plutôt que le jugement clinique ; que la simulation écologique des flux est nécessaire pour détecter les compromis sécurité/flux invisibles aux métriques prédictives ; et que sous R2 réaliste, seul URGENTIAPARSE atteint le seuil exigeant κw ≥ 0,80. L'essai prospectif multicentrique randomisé en cluster TRIADE (CHU Lille, CH Maubeuge, CH Dunkerque) est l'étape suivante indispensable.

Équipe du Projet

Dr Edouard Lansiaux

Auteur

CHU de Lille

Pr Hayfa Zgaya-Biau

Directrice de recherche

METRICS ULR 2694 & CRIStAL UMR 9189

Pr Mehdi Ammi

Co-encadrant

LIASD, Université Paris 8

Pr Emmanuel Chazard

Méthodologiste

METRICS ULR 2694

Pr Eric Wiel

Coordinateur Clinique

METRICS ULR 2694 & CHU de Lille

Dr R. Dewilde

Modérateur externe R2

CH Maubeuge

Dr Ramy Azzouz

Expertise IA MU

CHU de Lille