15. oktober 2019

Dine øjenbevægelser kan lære en computer nye sprog

Sprogteknologi

Ud af verdens næsten 7000 sprog, er det kun en lille procentdel, en computer kan forstå – og endnu færre sprog, den er rigtig god til at forstå. Forskning fra Datalogisk Institut på Københavns Universitet (DIKU) peger på, at eye-tracking på sigt kan gøre det lettere for computere at lære mange flere af verdens sprog.

Person læser på skærm
Shutterstock

I dag kan Google Translate oversætte din danske tekst til spansk næsten i realtid. Når franske turister holder ferie i Thailand kan Google Translate oversætte skilte for dem via billeder. Når en svensker modtager en tysk e-mail kan mailprogrammet identificere, om det er spam.

Men det samme gælder ikke for verdens mange mindre sprog, eksempelvis grønlandsk og færøsk. De er nemlig for små til, at der endnu er udviklet såkaldt sprogteknologi, som gør det muligt for en computer at forstå disse sprog. Den sprogteknologi, vi har adgang til i dag, understøtter altså ikke størstedelen af verdens befolkning – og det er problematisk i et globalt informationssamfund. Men nu kan en ny metode på sigt lave om på det.

Maskinlæring kræver menneskeligt input

Når de bedste computermodeller skal lære et sprog trænes de via et kæmpestort datasæt bestående af såkaldte annoterede tekster, dvs. tekster hvor sprogeksperter eller lingvister har markeret, hvad computeren skal lære om teksten, eksempelvis informationer om syntaks (hvordan ord kombineres for at danne sætninger) eller semantik (ordenes betydning).

Dette annotationsarbejde er afgørende for, at der kan udvikles menneskeligt intelligente sprogteknologier, men det kræver et omfangsrigt menneskeligt input til at supervisere computermodellen, og er således kun nyttig for større sprog, hvor der er ressourcer til at producere disse store datasæt.

I Maria Barretts ph.d.-afhandling fra 2018, der netop har vundet en ny prestigefyldt pris; ELLIS PhD Award, har hun påvist, at eye-tracking kan gøre det muligt for en computer at lære mange flere sprog med meget færre ressourcer og dermed gavne udviklingen af sprogteknologi til verdens mange små sprog.

Maria Barrett med sit ELLIS PhD Award diplom.

Vores øjenbevægelser giver computeren vigtig information

Når vi læser på en skærm, kan et kamera registrere, hvordan vores øjne bevæger sig henover skærmen og hvor længe vi fikserer vores blik bestemte steder på skærmen. Det kaldes eye-tracking og kan generere store mængder øjenbevægelsesdata, som blandt andet kan fortælle os noget om, hvordan vi læser en tekst og dermed hvordan teksten, vi læser, er sat sammen. 

I ph.d.-afhandlingen har Maria Barrett kombineret de forskningsområdet psykolingvistik, der beskæftiger sig med, hvordan mennesker processerer sprog, med sit eget forskningsområde Natural Language Processing (NLP), der stræber efter at få computere til at udføre samme sproglige opgaver som mennesker.

- Min vision med afhandlingen var at undersøge, hvordan menneskers kognitive processering af tekst kan benyttes til at lære computere at forstå sprog – og det kom der positive resultater ud af, fortæller Maria Barrett.

Helt specifikt lærer denne nye metode en computer noget om syntaks, dvs. hvordan en sætning er sat sammen på et givent sprog, så computeren efterfølgende kan analysere en sætning korrekt. Dette er essentielt når computeren skal oversætte en tekst eller udlede hvad teksten handler om.

- Mine undersøgelser påviste blandt andet at forskelle i læsetider mellem ordene var nok til at informere computeren om forskelle i syntaks og ordklasser uden behov for annoteret tekst. På den måde kan computeren lære noget om sproget direkte af eye-tracking data, og det vil på sigt kunne gavne udviklingen af sprogteknologi til langt flere sprog end i dag uden brug af annoteret tekst, fortæller Maria Barrett.

Metoden er en af flere metoder, som NLP-forskere rundt om i verden arbejder på, der skal være med til at sikre, at alle computersystemer i fremtiden kan skaleres til alle verdens sprog.

Videoen er optaget i forbindelse med dataindsamlingen i afhandlingen. Den viser, hvordan et menneskes øje bevæger sig henover sætningen og de fikseringer øjet foretager sig i læsningen. Størrelsen på cirklen angiver længden på fikseringen. Mellem fikseringerne bevæger øjet sig videre i en hurtig, springende bevægelse, en såkaldt sakkade. Hovedparten af sakkader bringer læseren videre i teksten, men 5-20% af all sakkader går imod læseretningen.