Dataloger får persondata til at støje: Kan gavne behandling af sygdomme
Forskere fra Københavns Universitet har udviklet en metode, der slører personfølsomme oplysninger i datasæt fra bl.a. sundhedsområdet. Metoden værner om den enkeltes ret til privatliv og stiller samtidig beskyttede data til rådighed for udvikling af bedre behandling.
I det moderne sundhedsvæsen er det et helt centralt værktøj at indsamle og analysere data for en stor gruppe patienter for at finde mønstre. Hvem har gavn af en bestemt behandling? Hvem risikerer at få bivirkninger? Men datasæt med personoplysninger skal beskyttes. Dels for at værne om den enkeltes ret til privatliv, dels fordi læk vil svække borgernes tillid, så færre vil sige ja til at medvirke i undersøgelser fremover.
Derfor har forskere fra Datalogisk Institut på Københavns Universitet udviklet en smart metode til at beskytte datasæt.
”Der er mange eksempler på, at datasæt er stillet til rådighed for offentligheden i anonymiseret form, hvorefter forskere i datasikkerhed har været i stand til at finde frem til deltagernes identitet. Det skyldes, at der findes så mange andre kilder til information i den moderne verden. Derfor vil det ofte være muligt at afdække folks identitet selv uden navne eller CPR-numre. Vi har fundet en praktisk og økonomisk måde at beskytte datasæt, der anvendes til maskinlæring,” siger ph.d.-studerende Joel Daniel Andersson.
Den nye algoritme er så interessant, at Joel blev inviteret til at fortælle om den på Google Tech Talk, som er et af de mest prestigefulde digitale formater i verden inden for datalogi. Desuden har han for nylig holdt et oplæg på NeurIPS, som er en af verdens førende konferencer for Machine Learning med flere end 10.000 deltagere.
Output fra datasættet bliver sløret
Tricket består af to dele. For det første stiller man aldrig datasættet direkte til rådighed. For eksempel vil en læge, der ønsker at afdække mønstre i virkningen af en behandling, ikke få de rå data, men kun adgang til at stille spørgsmål til datasættet. For det andet bliver svarene – kaldet output i fagsproget – tilsat en vis mængde tilfældige data, såkaldt støj. I modsætning til kryptering, hvor man tilføjer støj for senere at fjerne den igen, vil støjen i dette tilfælde forblive i datasættet. Faktisk vil det være umuligt at fjerne den, for støjen kan ikke skelnes fra de rigtige data.
Naturligvis er det surt for ejeren af et datasæt at skulle forurene output fra det med støj.
”En noget dårligere brugsværdi af datasættet er den pris, man betaler for at beskytte retten til privatliv for de deltagere, som har leveret data,” siger Joel Daniel Andersson.
Det gælder om at tilføje en tilpas mængde støj, så det bliver umuligt at genkende de oprindelige data, men samtidig bevare værdien af datasættet, tilføjer han:
”Hvis der er nok støj i output, bliver det umuligt at udlede værdien af et enkelt datapunkt, selv hvis du kender samtlige øvrige datapunkter. Man kan sige, at vi sætter et autoværn op omkring vekselvirkningen mellem analytiker og datasæt. Da analytikerne ikke får de rå data, men kun kan stille spørgsmål til datasættet, får de aldrig viden om individer. Dermed kan analytikerne aldrig lække data hverken bevidst eller utilsigtet.”
God beskyttelse har en pris
Der er ikke en universelt rigtig balance mellem beskyttelse af datasættet og brugbarhed, forklarer Joel Daniel Andersson:
”Du skal vælge den balance, der er rigtig i det givne tilfælde. Hvis vigtigheden af beskyttelse af privatliv er meget høj – for eksempel når der er tale om medicinske data – bør du vælge en stærk beskyttelse. Der skal altså tilføjes meget støj. Det vil nogle gange betyde, at du bliver nødt til at have flere data, altså have flere personer med i undersøgelsen, for stadig at have værdi af dit datasæt. I andre situationer, hvor behovet for beskyttelse er knap så højt, kan du nøjes med at tilsætte mindre støj. På den måde bevarer du værdien af datasættet bedre, og du mindsker også dine udgifter.”
Netop økonomi er den vigtigste grund til, at forskergruppens metode har fået så stor opmærksomhed, tilføjer han:
”Kernespørgsmålet er, hvor meget støj du skal tilsætte for at opnå et givent niveau af beskyttelse. Det er her vores smidige mekanisme har et fortrin i forhold til kendte metoder. Vi kan klare os med mindre støj og med lavere forbrug af computerkraft. Kort sagt mindsker vi udgiften ved at beskytte privatlivet.”
Stor interesse fra industrien
Machine Learning handler om at analysere store datasæt. For eksempel kan en computer typisk langt bedre end menneskelige eksperter finde mønstre i billeder fra medicinske skanninger. Forinden er computeren trænet ved hjælp af et datasæt med eksempler, hvor virkelige patienter indgår. Den slags træningssæt må beskyttes.
”Machine Learning vinder frem inden for mange felter. Samtidig er det ikke længere kun læger og andre professionelle, der bruger Machine Learning. Udviklingen åbner et væld af nye muligheder, men betyder også, at det bliver stadig vigtigere at beskytte personer, der indgår anonymt i datasæt, mod brud på deres ret til privatliv,” forklarer Joel Daniel Andersson.
Interessen er langt fra kun akademisk, tilføjer han:
”Ud over sundhedsvæsenet samt Google og andre store tech-virksomheder er det også brancher som konsulenthuse, revisionsfirmaer, advokater og mange andre, der har behov for at beskytte datasæt.”
Behov for regulering
Området kaldes differentiel beskyttelse af privatliv (differential privacy). Udtrykket henviser til, at man ikke kan sammenligne to datasæt, som er næsten ens, og finde frem til forskellen mellem dem. Selv hvis man sammenligner to datasæt, der kun har et enkelt datapunkt til forskel, vil det ikke være muligt at bestemme dette datapunkt. Det sørger støjen for.
Forskningsgruppen håber, at offentlige myndigheder vil vise større interesse for området.
”Fordi der er sammenhæng mellem bedre beskyttelse af privatliv og højere udgifter på grund af den dårligere nytteværdi af datasættet, er det fristende for de private aktører at give køb på beskyttelsen. Der bør være regler, som siger, at hvis du ønsker at arbejde med en bestemt anvendelse, skal du have et tilsvarende niveau af beskyttelse. Faktisk er det netop her, skønheden i metoden ligger. Du kan starte med at vælge, hvilket niveau af beskyttelse, du ønsker, og så kan systemet fortælle præcis, hvor meget støj, der skal tilsættes for at opnå det niveau,” siger Joel Daniel Andersson.
Han håber, at differentiel beskyttelse af privatliv kan hjælpe med at fremme brugen af Machine Learning:
”For igen at tage sundhedsområdet som eksempel, så skal patienterne i dag altid give samtykke til at indgå i undersøgelser. Der er altid et vist antal patienter, som enten nægter eller bare glemmer at give samtykke. Det forringer værdien af datasættet. Men når det er muligt at påvise en meget høj grad af sikkerhed mod at deltagernes privatliv bliver krænket, kan det være moralsk forsvarligt at undlade kravet om samtykke. På den måde ville man kunne opnå 100 % deltagelse til gavn for den medicinske forskning. Hvis den ekstra deltagelse er stor nok, vil den mere end kompensere for det tab af brugsværdi, som sløringen med støj medfører for datasættet. På den måde kan differentiel beskyttelse af privatliv blive en win-win for samfundet.”
Den videnskabelige artikel, som præsenterer den nye metode kan læses her “A Smooth Binary Mechanism for Efficient Private Continual Observation”.
Kontakt
Joel Daniel Andersson
Ph.d.-studerende
Datalogisk Institut (DIKU)
Københavns Universitet
+46 73 08 72 712.
jda@di.ku.dk
Michael Skov Jensen
Journalist og teamkoordinator
Det Natur- og Biovidenskabelige Fakultet
Københavns Universitet
msj@science.ku.dk
+45 93 56 58 97