Du skriver "Hva er verdens vakreste by?" til ChatGPT. Du ser sju ord. Språkmodellen ser noe helt annet: sju tokens, representert som tallverdier. Modellen leser ikke ord slik du gjør. Den bryter ned teksten i mindre biter, gjør dem om til tall, og jobber med tallene for å generere et svar.
Tokens er ikke det samme som ord
En token er en liten tekstbit som språkmodellen kan gjenkjenne. Noen ganger er en token et helt ord. Andre ganger er det bare en del av et ord, eller et enkelt tegn som et punktum eller spørsmålstegn.
Ta ordet "hvorfor" som eksempel. Det splittes i to tokens: "hvor" og "for". Begge er ord som kan stå alene, og modellen kjenner dem som separate enheter. Ordet "programmering" deles i tre: "program", "mer" og "ing". Korte, vanlige ord som "hva" forblir én token.
Hvert token har en tallverdi. Ordet "hva" kan for eksempel representeres som 187284. Det er dette tallet modellen jobber med, ikke bokstavene h, v og a. Hele språket ditt blir en lang rekke tall som modellen prosesserer.
Hvorfor modeller tenker i tokens
Datamaskiner forstår ikke bokstaver. De forstår tall. Tokenisering er broen mellom menneskespråk og det modellen kan jobbe med. Ved å bryte ned tekst i gjenbrukbare biter, kan modellen representere alle språk effektivt med et vokabular på rundt 100 000 tokens.
Strategien er smart: vanlige ord og ordstammer får egne tokens, mens sjeldne ord settes sammen av flere. Det betyr at modellen ikke trenger et eget token for hvert eneste ord som finnes. Den kombinerer kjente biter til nye ord, omtrent som legoklosser.
Ulike selskaper tokeniserer tekst på litt forskjellige måter. OpenAI, Anthropic og Google har alle sine egne tokeniseringsalgoritmer. Men prinsippet er det samme: del opp teksten i håndterbare biter, gjør dem om til tall, og la modellen jobbe med tallene.
Slik kan du se tokeniseringen selv
Vil du se hvordan teksten din brytes ned? Søk etter "tiktokenizer" og åpne nettsiden tiktokenizer.vercel.app. Lim inn en setning, og du ser hvilke tokens den deles i og hvilke tallverdier de får. Hvert token markeres med en egen farge, slik at du tydelig ser hvor ordene splittes. Prøv med norske og engelske setninger og legg merke til forskjellene.
Norsk tekst bruker ofte flere tokens per ord enn engelsk. Det er fordi modellene først og fremst er trent på engelske data, og har derfor et mer effektivt vokabular for engelsk. Ordet "kjøkken" kan koste to tokens, mens "kitchen" bare koster én. Det har praktiske konsekvenser for hvor mye du kan skrive i en enkelt melding.
Tokens bestemmer hva du betaler
Når du bruker KI-tjenester gjennom et API (programmeringsgrensesnitt), betaler du per token. Både teksten du sender inn (input-tokens) og svaret du får tilbake (output-tokens) teller. Flere tokens betyr høyere kostnad.
Med et vanlig ChatGPT-abonnement merker du ikke dette direkte, men det finnes grenser for hvor lange meldinger du kan sende og hvor lange svar du kan få. Disse grensene er satt i tokens, ikke i ord. Siden norsk bruker flere tokens enn engelsk for samme innhold, fyller norske samtaler opp grensene raskere.
Prisforskjellen mellom modeller henger tett sammen med tokens. Nyere, kraftigere modeller koster mer per token enn eldre. For vanlige brukere er dette skjult bak abonnementet, men for utviklere og bedrifter som bygger produkter med KI, er tokenforbruk noe de følger nøye med på.
Hvordan tokens påvirker svarene du får
Modellen genererer svar token for token. Den leser alt som er i kontekstvinduet, vurderer hva som mest sannsynlig bør komme neste, og legger til ett token. Så leser den alt på nytt, inkludert det nye tokenet, og legger til neste. Slik bygges svaret opp steg for steg.
Det er derfor du ser svaret vokse foran deg i sanntid. Hvert ord som dukker opp er resultatet av én prediksjon. Modellen ser ikke hele svaret på forhånd. Den vet bare hva som er mest sannsynlig akkurat nå, basert på alt som er kommet før.
Lange samtaler bruker mange tokens. Når du har en lang chat, må modellen lese gjennom alle tidligere meldinger (som tokens) før den kan svare på den siste. Derfor kan du oppleve at svarkvaliteten synker i veldig lange samtaler, fordi modellen har mye kontekst å håndtere.
I tillegg til selve teksten din legges det til spesialtokens som du ikke ser. Disse forteller modellen hvem som snakker (bruker eller assistent), hvor meldinger starter og slutter, og når den skal begynne å generere et svar. Alt dette teller mot det totale tokenforbruket, selv om det er usynlig for deg.
Neste steg
Nå vet du hva tokens i KI er og hvorfor de betyr noe. For å forstå hva som skjer når samtalen din blir lang, les om kontekstvinduet og hvordan det setter grenser for hva modellen husker. Vil du forstå hvordan modellen lærte seg å forutsi tokens i utgangspunktet, forklarer artikkelen om trening av språkmodeller prosessen fra bunnen av. Og for å skrive meldinger som gir bedre svar, se prompting-teknikker.
Denne videoen er hentet fra kurset Generativ KI – komplett guide på Utdannet.no. I det fulle kurset lærer du hvordan tokenisering fungerer i praksis, hvorfor det påvirker kostnad og kvalitet, og hvordan du utnytter kontekstvinduet effektivt.



