ki_pexels — Det er vanskelig å se hvordan Norge skal lede verden i ansvarlig KI hvis vi ikke stanser opp, stiller de vanskelige spørsmålene, og går videre først når vi forstår rekkevidden av svarene, skriver kronikkforfatterne i DN. Foto: pexels

Innlegg Av Elisabeth Katrine Døskeland, lege og grunnlegger av AppSafety, og Margrete Dyvik Cardona, NHH.

28. april 2026 08:37

Språk og kommunikasjon

Den veltalende løgneren

KI leser «heart attack» som [heart] [attack], men «hjerteinfarkt» leser den som [h][jer][te][inf][arkt]. Er det rart det blir visvas når den skal gjette seg frem til riktig svar på det du spør om?

Noe av KIs forføringskraft ligger i dens umiddelbare og selvsikre svar på alt vi måtte lure på. Dens flytende språk gjør at vi stoler på den, og likevel er noe galt – ikke bare med svaret, men med hvordan spørsmålet ble forstått i utgangspunktet.

For disse modellene er ikke laget for å lese norsk.

Like fullt er generativ KI, nærmere bestemt store språkmodeller, nå innvevd i norsk offentlig sektor, fra sykehus til Navs administrative prosesser.

Dette er gjort før vi har undersøkt konsekvensen av å innføre et system som leser ordene våre som biter av tekst – kalt tokens – og behandler dem som tallsekvenser.

Mange bruker nå også KI for å få råd om egen helse, ifølge lege Kristin Heldaas. Slik ser det egentlig ut:

Du skriver: «Hvorfor virker ikke smertelindringen etter operasjonen?»

KI leser: [Hvor] [for] [virker] [ikke] [sm] [ert] [el] [ind] [ringen] [etter] [oper] [aksjonen][?]

Her har modellen mottatt en sekvens på 13 biter (tokens), inkludert flere som ikke er naturlige orddeler på norsk.

Sammenlign dette med det samme spørsmålet på engelsk:

Du skriver: «Why isn’t the pain relief working after the surgery?»

KI leser: [Why] [isn] ['t] [the] [pain] [relief] [working] [after] [the] [surgery] [?]

Her mottar modellen 11 biter – og inndelingen samsvarer med ordenes naturlige oppbygging på engelsk.

Språkmodellen «leser» altså ikke spørsmålet ditt. Teksten deles først opp i biter, og deretter beregner modellen den mest sannsynlige neste biten på rent statistisk grunnlag, for å konstruere svaret sitt.

Fellen ved minimalistisk estetikk

Minimalistisk estetikk og ryddige hjem er blitt tegn på bærekraftig livsstil. Det er en misforståelse som kan drive frem mer forbruk, skriver Aruna Tatavarthy i Aftenposten.

Disse beregningene gjøres ut fra tekster som allerede eksisterer. Slik «lærer» den språk – ikke slik et barn gjør, med forståelse av ordbetydning og setningsdeler – men med rene statistiske analyser. Likevel har et barn og en stor språkmodell én ting til felles: Jo mer språk de blir eksponert for, desto bedre vil de beherske det.

Da får vi et problem når KIs treningsdata er dominert av engelsk. Common Crawl, den største datakilden brukt til å trene disse systemene, registrerer konsekvent at engelsk utgjør mellom 42 og 47 prosent av arkivet. Alle andre språk deler det som gjenstår. Norsk utgjør en brøkdel av dette.

Helsesektoren er et område der dette kan få store konsekvenser. La oss se på et ord som kan forekomme hyppig i denne sammenhengen:

«heart attack» → [heart] [attack] = 2 tokens

«hjerteinfarkt» → [h][jer][te][inf][arkt] = 5 tokens

Her leses «hjerteinfarkt» som fem adskilte biter (tokens) som modellen må sette sammen igjen. For å tolke dem, leter den etter de samme bitene i alt den er trent på – og beregner hva som statistisk sett pleier å komme etterpå. Dette gjør den millioner av ganger per sekund, og alle svarene er anslag som fyller pasientjournaler, juridiske vurderinger, trygdesøknader og politiske retningslinjer.

Jo mindre materiale modellen har å trene seg på, desto mer usikre blir anslagene.

For språk som er svakere representert enn engelsk, bruker modellen også mer av sin kapasitet på samme mengde informasjon, og hver token koster penger. For norsk bokmål krever modellene i gjennomsnitt rundt 1,9 ganger så mange tokens som for engelsk.

Enda verre blir det når vi ser på nynorsk:

Bokmål: «Hvorfor anbefalte sykehuset forebyggende tiltak?» → [Hvor] [for] [anbef] [alte] [sy] [keh] [uset][fore] [bygg] [ende] [tiltak] [?]

12 biter/tokens

Nynorsk: «Kvifor tilrådde sjukehuset førebyggjande tiltak?» → [Kv] [if] [or] [til] [rå] [dde] [sjuk] [eh] [uset] [føre] [bygg] [j] [ande] [tiltak] [?]

15 biter/tokens

Nynorsk ender opp med flere biter enn selv bokmål.

Men aller verst er det når saksbehandlingen foregår på samiske språk, der KIs treningsdata i praksis er fraværende:

Engelsk: «illness»→ [ill] [ness]→ naturlig oppdeling = 2 tokens

Norsk: «sykdom» → [sy] [k] [dom] = 3 tokens

Nordsamisk: «buohccivuohta» → [bu] [oh] [cc] [iv][uo] [hta] = 6 tokens

Her vil modellen beregne hvordan ordet brukes utfra biter som ikke har tilsvarende former i naturlig nordsamisk ordstruktur (det ville vært buohcci (syk) + vuohta ([tilstand]). Altså tar ikke modellen utgangspunkt i disse vanlige formene, men gjetter på grunnlag av biter, og med et langt tynnere treningsmateriale enn både for engelsk og norsk.

Samiske språk bærer kunnskap som ikke finnes på andre språk – begreper for land, rettigheter og slekt. Å miste et språks naturlige struktur, er å miste selve innholdet.

Bernanke fikk flest til å le – humor avslører lederstil i sentralbanken

I møter i den amerikanske sentralbanken er ikke latter bare stemning – den er et signal. En ny studie viser hvem som setter tonen rundt bordet.

Dette er særlig viktig nå, når Norge er i ferd med å velge personen som skal lede den nasjonale investeringen i kunstig intelligens. Kriteriene for stillingen inkluderer teknologiforståelse og samfunnsinnsikt. Men en slik stilling bør også inkludere kunnskap om hva som skjer når en modell, på svakt statistisk grunnlag, rekonstruerer språk fra biter som ikke samsvarer med språkets naturlige oppbygging.

Og vi må alle få vite hvordan en slik modell påvirker beslutninger som tas.

Den nasjonale investeringen bør gå til å bygge norsk- eller nordisk-først-systemer fra grunnen av, slik Sven Størmer Thaulow og Jon Atle Gulla argumenterer i DN («Norge kan ikke bare teste KI- modeller – vi må bygge egne», 25. februar). Da trenger vi noen med inngående kjennskap til hvordan generative KI-modeller prosesserer og gjenkjenner mønstre i tekst, samt kompetanse om norske og samiske språk.

Mangelen på slik kunnskap er et demokratisk problem, fordi risikoen bæres av dem som får søknadene sine behandlet, ikke av dem som godkjenner systemet. Hardest rammet er nynorsk og samiske språk, som begge skal være rettslig likestilte med bokmål.

Det er vanskelig å se hvordan Norge skal lede verden i ansvarlig KI hvis vi ikke stanser opp, stiller de vanskelige spørsmålene, og går videre først når vi forstår rekkevidden av svarene.

For nå går KI-keiseren naken gjennom gatene. Er det noen som tør å si det høyt?

Alle eksempler på oppdeling av tekst er verifisert i mars 2026 med OpenAIs tokenizer-verktøy (GPT-5.x og O1/3), med setninger eller enkeltord som inndata og visning av «Token IDs».

Innlegget var først publisert i Dagens Næringsliv 26. april 2026.