19. januar 2021

Ny professor finder veje til at beskytte personlige data med ’differential privacy’

Databeskyttelse

Hvordan udvikler vi løsninger, som kan lave nyttige analyser af data uden at krænke privatlivets fred? Er det muligt at dele data om befolkningsgrupper, som ikke kan pege tilbage på enkeltpersoner? Det er nogle af de matematiske problemstillinger, som Datalogisk Instituts nye professor Rasmus Pagh beskæftiger sig med.

Professor Rasmus Pagh

Overalt i vores samfund bliver der indsamlet enorme mængder data, som indeholder værdifuld viden til at forbedre en lang række områder. Gennem analyse af data kan vi udvikle kunstigt intelligente systemer til sundhedssektoren, forudse forandringer i verdens klima og økonomi, og virksomheder kan forbedre deres produkter og services.

Men fordi mange menneskelige data er personfølsomme, er det vigtigt at udvikle metoder, som gør det muligt at lave nyttige analyser af disse data uden at krænke borgernes privatliv. Sådanne metoder arbejder DIKU’s nye professor pr. 1. december 2020, Rasmus Pagh, med at udvikle.

Rasmus forsker blandt andet i differential privacy. En slags letvægts-kryptografi, som handler om at gøre det muligt at lave analyser på data som potentielt er følsomme, uden man behøver at frygte, at analyserne lækker personfølsom information.

- Det er afgørende for en datadrevet verden, at befolkningen kan føle sig trygge i forhold til at dele data. I flere tilfælde har det nemlig vist sig, at virksomheder og stater har udgivet analyser, der virker harmløse, men som faktisk kunne bruges til at finde frem til privat information, hvis man sammenholdte dem med andre kilder. Inden for differential privacy arbejder vi med at finde løsninger på dette problem, siger Rasmus.

Oftest er institutioner og virksomheder ifølge Rasmus egentlig ikke interesseret i oplysninger om enkeltpersoner, når de for eksempel laver brugerundersøgelser. De er derimod interesseret i en opsummering af data, som viser brugbare mønstre hos en større gruppe, og altså ikke de enkelte brugeres adfærd.

- Derfor er målet med differential privacy at kunne frigive så meget information som muligt uden at fortælle om enkeltpersoner. Vi vil altså gerne give information om en population af en eller anden art, men sikre os, at man ikke kan bruge denne data til at få viden om enkeltpersoner. Det kan i mange tilfælde godt lade sig gøre, siger Rasmus.

Gæsteforsker hos Google

Konkret designer og analyserer Rasmus såkaldte randomiserede algoritmer, som han er internationalt anerkendt for. Det er algoritmer, der laver tilfældige valg undervejs, hvilket blandt andet kan bruges til at sikre databeskyttelse.

Rasmus har primært beskæftiget sig med den teoretiske del af algoritmedesign, men han interesserer sig også for, hvordan algoritmerne kan anvendes i praksis. Senest har han været på et inviteret forskningsophold hos Google i hele 2019.

- Det var utroligt spændende at besøge Googles forskningsafdeling, hvor der bliver sat strøm til de teoretiske ideer. De ender ofte med at blive brugt i stor skala. Jeg kan godt lide at bevæge mig frem og tilbage mellem på den ene side de teoretiske problemer og på den anden side den impact, forskningen kan have udenfor universitetets mure, siger Rasmus.

Differential privacy er af stor værdi for techgiganterne, der ofte kritiseres for deres massive dataindsamling. Andre techgiganter som Apple og Facebook arbejder også med differential privacy, og ifølge Rasmus vil teknikken også blive relevant for offentlige institutioner at implementere i fremtiden.

- På sigt vil det give mening at udbrede det til offentlige institutioner, som også ligger inde med en masse data, som kan være til gavn. Det gøres allerede i dag af US Census, som i USA svarer til Danmarks Statistik. Her har man brug for at være sikker på, at det, man fortæller omverdenen, ikke krænker nogens privatliv.

Databeskyttelse med differential privacy - sådan virker det

Når institutioner og virksomheder førhen har skullet anonymisere persondata, for eksempel i forbindelse med store befolkningsundersøgelser, er dette ofte blevet gjort ad-hoc. Det vil sige, at man ud fra den enkelte undersøgelse har udvalgt, hvilke informationer man skulle skjule. Problemet med dette er, at man i mange tilfælde vil kunne kombinere information fra forskellige kilder til alligevel at finde oplysninger, man ikke burde kunne finde.

Et simpelt eksempel kunne være, at Københavns Universitet vælger at oplyse gennemsnitslønnen per medarbejder og opdaterer den, hver gang der ansættes en ny medarbejder. Hvis du ved, hvornår en person er startet, vil du derfor kunne regne ud, hvad vedkommende tjener, ud fra hvor meget gennemsnitslønnen steg eller faldt.

Med differential privacy undgår man at gøre præcis statistik tilgængelig. I stedet for at offentliggøre gennemsnitslønnen x, kan man for eksempel offentliggøre x + s, hvor s er et tilfældigt valgt tal, en slags ”støj” der bliver lagt til x. Hver gang der offentliggøres ny statistik introduceres der ny støj, hvilket gør metoden robust overfor analyser, som dén der blev beskrevet ovenfor.