2. december 2024

Digitaliseringsministeriet bevilger samlet 30,7 millioner til ambitiøst dansk sprogmodels-projekt

Sprogmodeller

Københavns Universitet har sammen med Syddansk Universitet, Aarhus Universitet og Alexandra Instituttet modtaget samlet 30,7 millioner kroner fra Digitaliseringsministeriet til at etablere en ambitiøs R&D platform, Danish Foundation Models (DFM), til at udvikle og anvende sprogmodeller og sprogteknologi i Danmark.

Dansk flag, computer og AI chatbot — Datalogisk Institut ved Københavns Universitet er en af de partnere, der skal være med til at udvikle sprogmodeller og sprogteknologi i danmark gennem den nye platform Danish Foundation Models (DFM).

Fremfor at konkurrere direkte med globale teknologigiganter som Google og OpenAI har Danmark valgt at samle sine ressourcer til løsning af velafgrænsede opgaver. En samlet national indsats kan med det afsæt gøre en markant forskel.

Denne tilgang sikrer, at danske investeringer i AI målrettes løsninger, som både opfylder kritiske og specifikke behov i det danske samfund og fremmer en bæredygtig udvikling, der sikrer en retfærdig digital økonomi.

Digitaliseringsministeriet har derfor netop bevilget samlet 30,7 millioner kroner til projektet, der tester en række use-cases ved at inddrage den offentlige forvaltning, uddannelses-og sundhedssektoren samt små og mellemstore virksomheder.

Dataintegritet og sikker AI-anvendelse

Projektet har som hovedformål at etablere en sikker R&D (research & development) platform til træning, finjustering, evaluering og vedligeholdelse af basismodeller (foundation models) til anvendelse i dansksprogede sammenhænge. Denne platform vil leve op til de højeste standarder for dataintegritet og dokumentation af sikker AI-anvendelse.

– Jeg er begejstret for, at DIKU vil bidrage til udviklingen af store sprogmodeller, der overholder EU's AI-lov og GDPR-regulering. Der ligger en betydelig opgave foran os med dataudvælgelse, modeludvikling og kulturelt relevant evaluering. Det er vigtigt for DFM-konsortiet at fokusere på at udvikle open-source modeller, som er fuldt dokumenterede, da det kan være drivkraft for lokal innovation og udvikling i Danmark," forklarer lektor Desmond Elliott, der er co-PI i projektet.

Bolette Sandford Pedersen, professor og viceinstitutleder ved Københavns Universitet tilføjer:

– I konsortiet vil vi desuden sørge for at sprogmodellerne evalueres ud fra den kulturelle og samfundsmæssige sammenhæng, som de skal indgå i. Dette sikres gennem en række dansk-funderede benchmarks, der undersøger modellernes almene sprogforståelse og indarbejder viden om dansk sprog og kultur, forklarer hun.

En interaktiv sandkasse

Samtidig etableres en innovativ, åben ’sandkasse’ udformet med henblik på løbende samarbejde om finjusteringer og tilpasninger af basismodellerne. I sandkassen vil domæneeksperter på tværs af nationale projekter samarbejde om at udforme og forbedre specifikke use-cases i et fleksibelt og sikkert miljø.

– DFM udspringer af en vision om, at fællesskab og inklusion må være de styrende principper for udviklingen af dansk sprogteknologi. Vores interaktive sandkasse vil på den baggrund samle forskere, udviklere og brugere om hurtigt og fleksibelt at skabe prototyper, ligesom den vil danne rammen om et samarbejde med henblik på at finjustere løsninger til en righoldig mængde samfundsmæssige behov. Ved at tage afsæt i dansk kulturarv og ved at foretage kulturelt afstemte justeringer af allerede eksisterende modeller ønsker vi at skabe sprogteknologi, der afspejler og respekterer kompleksiteten af det danske samfund – før som nu. Under disse ambitioner ligger en forpligtelse på åbenhed og transparens i forsknings- og udviklingsarbejdet. Vi ønsker med andre ord ikke alene at bidrage med de bedste modeller, men også med redskaber og dokumentation, der muliggør videreudvikling og reproduktion af vores arbejde. DFM stræber således efter at bygge bro over den digitale sprogbarriere og at modne normerne for, hvordan vi kulturelt forsvarligt udvikler AI, fortæller Kristoffer Nielbo, Professor ved Aarhus Universitet, Center for Humanities Computing.

Hele platformen udvikles under brug af eksisterende samarbejder, supercomputing-infrastruktur og dataudleveringsaftaler, hvilket reducerer udgifter til etablering væsentligt. Det er hensigten at gøre basis- og finjusterede modeller mere tilgængelige med open source via R&D-platformen, så de f.eks. også kan benyttes til kommerciel brug. Med denne tilgang kan både offentlige og private aktører drage nytte af modellerne og platformen og bidrage til deres videre udvikling.

Mere info

Der afsættes 20,7 mio. kr. til platformen i 2024-2027. Derudover afsættes der 10 mio. kr. til forskning og innovation i danske sprogmodeller baseret på generativ kunstig intelligens i regi af Danish Foundation Models med aftalen om forskningsreserven for 2025.
Indsatsen skal drives i regi af Danish Foundations Models – et samarbejde mellem Aarhus Universitet, Syddansk Universitet, Københavns Universitet og Alexandra Instituttet om forskningsbaseret udvikling af sprogmodeller. Modellerne kan tilgås gratis (open source) af blandt andet myndigheder og virksomheder. Indsatsen skal på denne måde bane vej for, at Danmark kan udnytte potentialerne i kunstig intelligens med ansvarlighed, datasikkerhed og transparens i højsædet.

Læs mere om DFM-projektet i den officielle pressemeddelelse.