Cadre de simulation hybride pour l'évaluation pré-clinique du triage assisté par IA aux urgences
EIMLIA-TEU est un cadre de simulation hybride pour l'évaluation pré-clinique du triage assisté par IA selon quatre dimensions simultanées : clinique, organisationnelle, économique et technique. Il combine une Simulation à Événements Discrets (DES), un Système Multi-Agents (MAS), des jumeaux numériques 4D (structurel, comportemental, temporel, technique), du process mining et une formalisation graphique système, calibrés sur 600 000 passages aux urgences anonymisés (CHU Lille, 2018–2023).
Les trois architectures IA de la preuve de concept TIAEU (TRIAGEMASTER : Doc2Vec + MLP ; URGENTIAPARSE : FlauBERT + XGBoost ; EMERGINET : JEPA + VICReg) ont été réentraînées sur 340 536 patients et évaluées selon un cadre double régime conçu pour dissocier l'approximation algorithmique de la validité clinique.
Simulation hybride DES + Systèmes Multi-Agents, jumeaux numériques 4D
600 000 passages aux urgences (CHU Lille, 2018–2023)
18,5 M de logs d'événements (process mining)
340 536 patients
(découpage 60:20:20 ; test n = 68 108)
TRIAGEMASTER (NLP)
URGENTIAPARSE (LLM)
EMERGINET (JEPA)
La principale contribution méthodologique est une séparation explicite entre deux régimes d'évaluation, conçue pour rendre visible un artefact que la littérature sur le triage par IA tend à laisser implicite.
| Architecture | R1 (κw) | R2 (κw, projeté) |
|---|---|---|
| URGENTIAPARSE (LLM) | 0,9956 | 0,81 [0,78 ; 0,84] |
| EMERGINET (JEPA) | 0,9391 | 0,74 [0,71 ; 0,77] |
| TRIAGEMASTER (NLP) | 0,8945 | 0,69 [0,66 ; 0,72] |
| Baseline IDE (littérature) | 0,65 | 0,65 |
| Seuil de déploiement | ≥ 0,80 | ≥ 0,80 |
Benchmarking double régime. R1 vs. labels idéaux FRENCH (approximation algorithmique, n = 68 108). R2 vs. consensus de 5 médecins experts (validité clinique, n = 3 000). IC à 95 % par bootstrap entre crochets.
Sous R1, les trois architectures convergent vers κw ≥ 0,89, confirmant la capacité d'approximation algorithmique mais non la validité clinique. Sous R2, toutes dépassent la baseline IDE (κw ≈ 0,65), mais seul URGENTIAPARSE (κw = 0,81) atteint le seuil de déploiement κw ≥ 0,80. L'écart R1→R2 de ≈ 0,18, répliqué sur les trois architectures, quantifie l'artefact de l'entraînement sur des labels reconstruits algorithmiquement : la littérature antérieure évaluant l'IA de triage contre de tels labels sur-estime probablement la validité clinique de 0,10 à 0,20 en κw.
Les runs hybrides DES-MAS (mode rapide 3 jours), sous les performances R2 corrigées, produisent la variation de durée moyenne de séjour (∆DMS) suivante par rapport au baseline manuel :
| Scénario | ∆ DMS | Concordance IA |
|---|---|---|
| S2b — URGENTIAPARSE | −7,1 % [−9,4 ; −4,8] | 76,5 % |
| S2a — TRIAGEMASTER | −3,2 % [−5,5 ; −1,0] | 62,3 % |
| S2c — EMERGINET | +1,2 % [−0,8 ; +3,1] | 91,0 % |
| S3 — Crise hybride (charge 200 %) | +8,8 % | 90,5 % |
Comparaison des scénarios (runs mode rapide 3 jours, injection d'erreur corrigée R2). Le scénario de crise hybride préserve la sécurité clinique (concordance 90,5 %). Les stress tests sont conformes aux cibles (SURGE n = 220 ≥ 180 ; disponibilité 99,1 % ≥ 99,0 %).
URGENTIAPARSE est la seule architecture qui atteint à la fois le seuil de validité clinique R2 et produit un bénéfice de flux écologique convergent (∆DMS = −7,1 %). Le cadre documente également le « paradoxe de simulation URGENTIAPARSE » : dans les cycles antérieurs sur labels enregistrés, le modèle produisait un ∆DMS apparent de −13,2 % alors que la sensibilité critique s'effondrait à ≈ 0,002 — un danger de sécurité invisible à toute métrique prédictive isolée, détectable uniquement par la simulation multidimensionnelle.
Analyse de sensibilité probabiliste (Monte Carlo, 50 000 itérations), scénario réaliste :
| Scénario | ROI 3 ans (IC95 %) | ICER | P(dominant) |
|---|---|---|---|
| Pessimiste | 80 % [−30 ; 320] | 12 500 €/QALY | 8 % |
| Réaliste | 480 % [210 ; 1 250] | 1 840 €/QALY [dominé ; 8 300] | 32 % |
| Optimiste | 2 100 % [890 ; 4 100] | dominant | 64 % |
Résultats PSA Monte Carlo (50 000 itérations) par scénario. L'intervention est coût-efficace au seuil HAS 50 000 €/QALY dans 99,4 % des simulations (courbe d'acceptabilité coût-efficacité, CEAC).
Les cinq paramètres expliquant 87 % de la variance du ROI sont, par ordre décroissant : taux d'hospitalisations inappropriées évitées (38 %), tarif unitaire GHS (21 %), taux d'imagerie évitée (12 %), volume annuel de passages (10 %) et latence P95 d'inférence IA (6 %). Une projection déterministe antérieure (ROI 10 260 %, ICER 93 €/QALY) a été explicitement retirée au profit de ces chiffres probabilistes.
κw pondéré R1/R2, sensibilité critique, taux de sous-triage
Durée de séjour, temps d'attente, taux de congestion
ROI, ICER, CEAC via PSA Monte Carlo (CHEERS 2022)
Disponibilité, latence d'inférence, MTTR
Étude rétrospective monocentrique (urgences adultes CHU Lille, 2018–2023), approuvée par le CESREES, méthodologie MR-004 avec déclaration N° 27797006 auprès du Health Data Hub. Conforme RGPD, référentiel CNIL MR-004.
EIMLIA-TEU démontre que les modèles d'IA de triage entraînés sur des labels algorithmiques récupèrent l'algorithme plutôt que le jugement clinique ; que la simulation écologique des flux est nécessaire pour détecter les compromis sécurité/flux invisibles aux métriques prédictives ; et que sous R2 réaliste, seul URGENTIAPARSE atteint le seuil exigeant κw ≥ 0,80. L'essai prospectif multicentrique randomisé en cluster TRIADE (CHU Lille, CH Maubeuge, CH Dunkerque) est l'étape suivante indispensable.