Blind brug af AI i sundhedsvæsnet kan skabe usynlig forskelsbehandling
Kunstig intelligens kan hjælpe et presset sundhedsvæsen med at fordele begrænsede ressourcer, men også skabe mere ulige adgang til dem. Det viser forskningssamarbejde mellem Københavns Universitet, Rigshospitalet og DTU, der senest har undersøgt, om AI evner at spotte risiko for depression ligeligt hos forskellige grupper. Forskningen viser muligheder for at kæmme algoritmerne for bias, inden de tages i brug.
Kunstig intelligens vinder mere og mere indpas i sundhedsvæsnet. MR-scanninger er allerede blevet effektiviseret af AI, og danske sygehuse afprøver nu AI til bl.a. at stille hurtige diagnoser på akutpatienter, bedre kræftdiagnoser og -behandlinger.
Men det er kun begyndelsen. Den 14. August udtalte den danske sundhedsminister, Sophie Løhde, at hun ser en fremtid, hvor AI skal aflaste vores trængte sundhedsvæsen.
På hospitaler og i psykiatrien er en af de opgaver, som AI er velegnet til at hjælpe med at forbedre fordelingen af begrænsede midler ved hjælp af risikoanalyser og rangeringer, der kan sikre, at fx behandlinger gives til de patienter, hvor det batter mest.
I udlandet bruger man allerede AI til at vurdere, hvilke personer, der skal modtage behandling for depression. En udvikling, der kan være på vej til en presset dansk psykiatri.
Nu kalder forskere ved Københavns Universitet dog på eftertænksomhed hos politikerne, så AI ikke medfører mere ulighed eller ligefrem bliver et instrument for kyniske økonomiske kalkuler. Uagtsomhed kan gøre hjælpen til en bjørnetjeneste, påpeger de.
”Der er stort potentiale i kunstig intelligens, men vi skal være varsomme, da en blind indføring af det kan skævvride sundhedsvæsenet på nye måder, som er svære at se, fordi resultaterne ved første øjekast ser rigtige ud,” siger Melanie Ganz fra Datalogisk Institut og Rigshospitalet.
Usynlig forskelsbehandling
I en ny forskningsartikel dokumenterer hun, sammen med sine medforfattere, hvordan skjulte bias sniger sig ind i en algoritme designet til at beregne risiko for depression.
Sammen med kolleger fra DTU udviklede forskerne selv algoritmen, efter samme design som de algoritmer, der allerede er i brug ude i virkelighedens sundhedsvæsner. På baggrund af virkelige depressionsdiagnoser forudsiger algoritmen, hvor stor risiko personer har for at udvikle depression.
”I udlandet bliver det mere og mere udbredt at se på, hvordan man tidligt kan opspore og forhindre depression. I USA bruger private forsikringsselskaber eksempelvis i stigende grad AI til at prioritere ressourcerne, og det når med al sandsynlighed også Danmark i en nær fremtid. Men spørgsmålet er, hvor retfærdigt et grundlag, prioriteringen egentlig sker på,” siger medforfatter Sune Holm fra Institut for Fødevare- og Ressourcevidenskab.
Forskerne har brugt depression som case til at undersøge, hvordan vi kan evaluere de algoritmer, som vi bruger både inden for sundhedsvæsnet og andre steder i samfundet, så vi bliver i stand til at spotte og justere problemer i tide og gøre algoritmerne mere fair inden de tages i brug.
Ekstra info: En startup-virksomhed som scenarie
Som eksperiment havde forskerne i et tænkt scenarie påtaget sig rollen som startup-virksomhed, der henvender sig til danske kommuner og andre myndigheder med AI-løsninger, der hjælper dem med at prioritere begrænsede midler, fx til sundhedsområdet.
I Danmark bliver AI endnu ikke i dag brugt som diagnostisk hjælpemiddel for depression, men det findes internationalt, og vi har i Danmark tradition for at udvikle værktøjer til at støtte beslutninger inden for diagnostik.
”I USA findes der allerede startups, der tilbyder AI-løsninger til at analysere og rangere risiko for depression. Med vores store fælles sundhedsvæsen er et realistisk scenarie i Danmark, at perioder med fx underbemanding vil kalde på AI-løsninger, der kan prioritere de begrænsede ressourcer bedst, fx i psykiatrien,” siger Melanie Ganz.
Forskernes egen algoritme var trænet i reelle, historiske sundhedsdata om 6 mio. danskere, hvoraf ca. 200.000 havde en depressionsdiagnose.
”De rigtige algoritmer med den rette træning kan blive kæmpe aktiver for en kommune med begrænsede ressourcer, men vores forskning viser, at hvis maskinlæringen ikke håndteres ordentligt, så kan det skævvride adgangen til behandling, så nogle grupper overses eller sågar holdes ude,” siger Melanie Ganz.
Studiet viser nemlig, at algoritmen har lettere ved at spotte risiko for depression hos visse borgergrupper end hos andre ud fra de variabler, de er trænet i - fx uddannelse, køn, etnicitet og række andre variabler. Algoritmens evne til at identificere risiko for depression varierede således med op til 15 % mellem forskellige grupper.
”Det betyder, at selv en region eller kommune, der i god tro indfører en algoritme til at hjælpe med at fordele fx behandlingstilbud, kan komme til at skævvride den her sundhedsindsats,” siger Melanie Ganz.
Algoritmen kan nemlig være en målbar succes, fordi den tildeler ressourcer til personer, der faktisk har behovet, men samtidigt have skjulte bias, der udelukker eller nedprioriterer visse grupper, uden det er synligt for dem, der forvalter det.
I værste fald kan AI-systemerne blive et instrument for kyniske kalkuler. Valget af bestemte algoritmer ville kunne bruges til at skjule prioriteringer af ressourcer til grupper i samfundet, som man ønsker at understøtte frem for andre.
Redskab til at sikre fair algoritmer
Sune Holm påpeger, at AI også giver nogle grundlæggende etiske dilemmaer.
”Hvis vi begynder at anvende de her systemer, er det vigtigt at afklare, hvem der har ansvaret for prioriteringer af ressourcer og individuelle behandlingsforløb, når de er resultater af algoritmer. Ydermere kan det blive svært for en læge at forklare sin patient, hvorfor en beslutning er taget, hvis algoritmen er uforståelig,” lyder det fra Sune Holm.
Forskningen bidrager teoretisk til et område af maskinlæring, der handler om algoritmers forskelsbehandling på tværs af grupper, men metoderne er også et håndfast redskab til at kvalitetstjekke algoritmers fairness.
”De metoder, som vi har udviklet, kan bruges som en konkret recept til evaluere fairness af algoritmer, inden de tages i brug i fx kommuner og regioner. Vi håber forskningen på den måde kan bidrage til, at der er de rette redskaber på plads, når algoritmerne for alvor gør deres indtog på det her område,” siger Melanie Ganz.
”Både politikere og borgere må være bevidste, ikke blot om fordelene, men også de faldgruber, der er forbundet med brugen af AI. Så man kan være kritisk i stedet for bare uden videre at ”sluge pillen,” lyder det fra Sune Holm.
Han mener, der kan være behov for at sikre, at anvendelsen af en algoritme har en dokumenteret positiv effekt på patienterne inden man investerer i at implementere den. Eksempelvis bør det være klart, hvordan den kan give værdi i den kliniske praksis den skal indgå i.
Ekstra info: Lovgivning på vej
I slutningen af året træder lovgivning i kraft i EU, der stiller krav til algoritmerne og kan lægge en dæmper på udviklingen, påpeger forskerne. Når der, som på sundhedsområdet, er tale om højrisiko-AI, følger der bl.a. krav om dokumentation og afrapportering, der forklarer konklusionerne og kan være med til at sikre den menneskelige hånd om beslutninger baseret på algoritmer.
Ifølge forskerne er der dog så mange steder i sundhedsvæsnet, der kan forbedres med kunstig intelligens, fra arbejdsgange, diagnoser og behandlinger og til fx monitorering af intensivpatienter, at brugen af AI må være kommet for at blive.
“Når lovgivningen træder i kraft, så tror jeg først det vil bremse udviklingen lidt, - så vil der komme en tilpasning, og det vil bestemme en retning. På en lidt længere bane vil AI kun blive brugt mere og mere, og derfor er det også vigtigt, at vi som forskere er med til at påpege faldgruber, så lovgivningen kan tage højde for dem,” siger Melanie Ganz.
Om studiet
Studiet indgår i og er finansieret under DTU’s projekt: Bias and fairness in medicine.
Bag studiet er forskerne: Eike Petersen, Postdoc ved DTU Compute.
Melanie Ganz, Lektor ved Datalogisk Institut, Københavns Universitet, og seniorforsker ved Neurobiologisk Forskningsenhed på Rigshospitalet.
Sune Holm, Lektor ved Institut for Fødevare- og Ressourceøkonomi, Københavns Universitet. Han har desuden for nyligt publiceret et studie omkring problemstillingerne med AI som grundlag for medicinske beslutninger, der er omtalt.
Aasa Feragen, Professor ved DTU Compute.
Kontakt
Melanie Ganz-Benjaminsen
Lektor
Datalogisk Institut
Købenahavns Universitet
ganz@di.ku.dk
35320345
Sune Hannibal Holm
Lektor
Institut for Fødevare- og Ressourceøkonomi
Københavns Universitet
suneh@ifro.ku.dk
35328893
Kristian Bjørn-Hansen
Journalist og pressekontakt
Det Natur- og Biovidenskabelige Fakultet
Københavns Universitet
kbh@science.ku.dk
93 51 60 02