Slik trenes en språkmodell fra bunnen av

Du skriver "Nikola Tesla var" og modellen fullfører med "en serbisk-amerikansk oppfinner, ingeniør og fysiker." Det virker som den vet hvem Tesla er. Men modellen har aldri lest en bok om Tesla slik du ville gjort. Den har lært mønstrene i milliarder av tekstdokumenter, og bruker disse mønstrene til å forutsi hva som sannsynligvis kommer neste. For å forstå hvorfor KI svarer som den gjør, må du vite hvordan man trener en språkmodell.

Fem steg fra rådata til chatbot

Å bygge en språkmodell som ChatGPT eller Claude går gjennom fem steg:

Datainnsamling – store mengder tekst samles inn fra internett.
Tokenisering – teksten brytes ned i tokens, små tekstbiter som modellen kan jobbe med.
Pre-trening – modellen lærer å forutsi neste token basert på mønstrene i dataen.
Finjustering (SFT) – modellen lærer å svare nyttig på spørsmål.
RLHF – modellen forbedres basert på tilbakemeldinger fra mennesker.

De tre første stegene gir deg en grunnmodell (base model) som er god til å forutsi tekst, men som ikke nødvendigvis er nyttig. De to siste stegene forvandler den til en hjelpsom samtalepartner.

Pre-trening: lære språkets mønstre

Alt starter med data. Selskapene samler inn tekst fra nettsider, bøker, artikler, kodearkiver og offentlige datasett. Vi snakker om terabytes med tekst, nok til å fylle millioner av bøker. Nettsider som Kaggle og Common Crawl tilbyr ferdige datasett, men de store aktørene samler også inn data på egenhånd.

Teksten tokeniseres og deles i sekvenser som mates til modellen i grupper (batches). Så starter selve treningen: modellen får en sekvens med tokens og skal forutsi neste token. Den ser "Nikola" og gjetter hva som kommer etter. Var svaret feil? Da beregnes en feilverdi (loss), og modellens parametre justeres slik at den gjetter bedre neste gang.

Denne prosessen gjentas milliarder av ganger, på milliarder av tekstsekvenser. For hvert steg blir modellen litt bedre til å se mønstrene i språket. Etter nok gjentakelser har den lært at "Nikola Tesla var" sannsynligvis etterfølges av ord som beskriver hvem Tesla var, ikke tilfeldige ord.

Trening koster milliarder

Pre-trening er den mest krevende fasen. Den krever tusenvis av spesialiserte grafikkort (GPU-er) som kjører i uker eller måneder. Strømkostnadene alene kan ligge på hundrevis av millioner kroner. Nye anlegg (datasentre) bygges for å ha nok kapasitet.

Derfor gjøres pre-trening bare én gang per modell. Når grunnmodellen er ferdig trent, brukes den som utgangspunkt for finjustering og videre tilpasning. Det er dette som gjør treningsdataen så viktig: modellen kan bare det den har sett under trening. Har den ikke sett informasjon om en hendelse (fordi den skjedde etter at datainnsamlingen ble avsluttet), vet den ingenting om det. Denne grensen kalles cut-off date, og er grunnen til at modeller kan gi utdaterte svar om nylige hendelser.

Man vet at treningen er ferdig når modellens feilverdi slutter å synke på data den ikke har trent på (valideringsdata). Da har modellen tatt til seg mønstrene i språket, og videre trening gir ingen forbedring.

Fra grunnmodell til nyttig assistent med SFT

En ferdig pre-trent grunnmodell er flink til å fullføre tekst, men den er ikke nyttig i en samtale. Skriver du "Hvem var Nikola Tesla?" kan en grunnmodell svare med å fortsette spørsmålet ditt, som om den skriver en quiz, i stedet for å gi et svar.

Supervised Fine-Tuning (SFT) løser dette. Mennesker lager tusenvis av eksempler på spørsmål og gode svar. Modellen trenes på disse eksemplene slik at den lærer formatet: når noen stiller et spørsmål, skal du svare nyttig og direkte. Etter SFT begynner modellen å oppføre seg som en assistent i stedet for en tekstfullføringsmaskin.

RLHF gjør svarene bedre

Det siste steget heter Reinforcement Learning from Human Feedback (RLHF). Modellen genererer flere ulike svar på samme spørsmål, og mennesker rangerer svarene fra best til dårligst. Basert på disse rangeringene lærer modellen ikke bare å svare riktig, men å svare på den måten mennesker foretrekker.

RLHF er grunnen til at moderne KI-modeller føles naturlige å snakke med. De har lært at et godt svar er strukturert, konkret og tilpasset spørsmålet. De har også lært å si "dette vet jeg ikke" i stedet for å finne på noe (selv om de fortsatt kan gjøre feil).

Hele prosessen, fra datainnsamling til RLHF, tar flere måneder og involverer hundrevis av ingeniører og tusenvis av mennesker som kvalitetssjekker svarene. Det er dette som ligger bak et verktøy som virker enkelt når du skriver en melding og trykker Enter.

Neste steg

Nå vet du hvordan man trener en språkmodell fra bunnen av. For å forstå hva tokens er og hvorfor de er grunnenheten modellen jobber med, les om tokens i kunstig intelligens. Vil du se hvordan ferdigtrente modeller sammenligner seg mot hverandre, viser artikkelen om den beste KI-modellen deg hvordan du finner den rette. Og er du klar til å bruke en trent modell i praksis, gir prompt engineering deg teknikkene for å få bedre svar.

Denne videoen er hentet fra kurset Generativ KI – komplett guide på Utdannet.no. I det fulle kurset lærer du om pre-trening i detalj, ser hvordan grunnmodeller fungerer i praksis, og forstår forskjellen mellom en grunnmodell og en finjustert assistent.