Journal club 11-04-2022
Dynamic Mortality Risk Predictions for Children in ICUs: Development and Validation of Machine Learning Models
Rivera et al. Pediatric Critical Care Medicine 2022 – published ahead of print (link)
Doel van het onderzoek:
Het toepassen van een specifiek machine learning model (“Criticality Index”) op data van kritische zieke kinderen om een ‘serieel’-geupdate mortaliteit risico predictie te verkrijgen.
Design
Prognostische studie op basis van retrospectieve analyse van klinische data
Populatie
27.354 opnames (leeftijd <22jr) op een kinderIC in USA tussen 2009 en 2018
Methode
Parameters
Opname / demografische gegevens, vitale parameters, laboratorium en beademing data, medicatie, diagnostische en procedure codes (ICD-9/10) en hospital outcome
! Genormaliseerd naar leeftijdscategorie
! Primaire diagnose werd niet meegenomen – omdat het pas werd bepaald bij ontslag.
! Missende vitale parameters en laboratorium data werd ‘geimputeerd’ o.b.v. de laatst bekende waarde

Statistiek
- Het ziekenhuisbeloop werd gemodelleerd in blokken van 6 uur, met een maximum van 180 uur.
- 87% van de opnames werd gebruikt voor het ontwikkelen (trainen) van het model en 13% voor het evalueren (testen) van de modellen.
- Voor elk tijdsblok werd voor elke opname de Criticality Index berekend:
- Neuraal netwerk voor een classificatie taak: initieel ontworpen voor wel of geen ICU
- De architectuur van dit netwerk werd geoptimaliseerd om de Mathew Correlation Coefficient (MCC) van de predicties maximaal te krijgen.
- Voor dit artikel is de output van het Criticality Index neural netwerk én de variabele wel of geen positieve drukbeademing, gekalibreerd op ziekenhuismortaliteit
- Uitgebreide evaluatie van de modellen:
- Discriminatie (kan het model voldoende onderscheid maken tussen verschillende uitkomsten / classes, vaak gemeten met een AUC)
- Calibratie (de mate waarin het model het absolute risico goed schat, d.w.z. of de voorspelde waarden van het model ook daadwerkelijk overeenkomen met de geobserveerde waarden, vaak gemeten met een ‘goodness of fit’)
- Performance metingen (bijv. specificiteit, precisie, F1 scores, MCC, etc)

Resultaten
- Mortaliteit was slechts 1,8%
- Goede discriminatie (AUROC voor alle tijdsperiodes 0.852 – 95%CI 0.843 – 0.861)
- Redelijke tot goede calibratie (zie figuur 2)
- Volaliteit was het hoogste bij de patienten met het hoogste risico op overlijden (zie figuur 3)
Discussie
+ Nieuwe toepassing van machine learning model met goede discriminatie en calibratie
+ Klinische ‘validiteit’ op basis van elke 6 uur een update
+ Onderliggende data van meerdere (88) centra
– Zeer complex model, geoptimaliseerd voor ‘performance’ / potentieel niet voor toepassing in kliniek
– Geen analyse/rapportage van ‘gewicht’ van de parameters in het model
– Geen (prospectieve) validatie
Critical appraisal
+ De auteurs hebben de (internationaal erkende) “Transparent reporting of a multivariable prediction model for individual prognosis or diagnoses (TRIPOD)” richtlijn gebruikt om hun bevindingen te rapporteren. De invulling daarvan is hier te vinden.