Robots.txt og noindex — styr hva Google indekserer

Google kravler nettsiden din og bruker tid på å indeksere søkeresultatsider, takkesider og gamle kampanjesider som ingen søker etter. I mellomtiden ligger de nye produktsidene dine uindeksert. Med robots.txt og noindex bestemmer du selv hva Google skal bruke tiden sin på, og hva den skal hoppe over.

Hva er robots.txt og hvordan fungerer den

Robots.txt er en enkel tekstfil som ligger i rotmappen på nettstedet ditt (dinside.no/robots.txt). Når en søkemotor besøker nettstedet ditt, sjekker den denne filen først for å se om det er noen sider den ikke skal kravle.

Filen bruker to hoveddirektiver. User-agent angir hvilken søkemotor regelen gjelder for. Bruker du stjerne (*), gjelder regelen alle søkemotorer. Disallow angir hvilke URL-er eller mapper som ikke skal kravles. For eksempel blokkerer "Disallow: /admin/" hele administrasjonsdelen av nettstedet.

En viktig distinksjon: robots.txt blokkerer kravling, men ikke nødvendigvis indeksering. Hvis en blokkert side har lenker fra andre nettsteder, kan Google likevel indeksere den basert på informasjonen fra disse lenkene. URL-en kan da dukke opp i søkeresultatene med beskrivelsen "Ingen informasjon er tilgjengelig for denne siden." For å faktisk fjerne en side fra søkeresultatene trenger du noindex.

Hva er noindex og når bør du bruke det

Noindex er et HTML-metadirektiv som forteller søkemotorer at en side ikke skal vises i søkeresultatene. Du legger det til i head-seksjonen på den aktuelle siden:

<meta name="robots" content="noindex" />

Forskjellen mellom robots.txt og noindex er viktig. Robots.txt sier "ikke besøk denne siden". Noindex sier "du kan besøke den, men ikke vis den i søkeresultatene". For sider du aktivt vil fjerne fra Google, er noindex det riktige valget.

Typiske sider som bør ha noindex:

Interne søkeresultatsider
Takkesider etter skjemainnsending
Staging- og testsider
Påloggingssider og kontoinnstillinger
Filtrerte URL-er med parametere som skaper duplisert innhold

Det finnes også en tredje metode kalt X-Robots-Tag, som brukes i HTTP-headere. Denne er nyttig for filer som ikke er HTML, som PDF-er eller bilder, der du ikke kan legge inn en meta-tag.

Slik konfigurerer du robots.txt SEO-vennlig

I WordPress med Yoast SEO finner du robots.txt under Yoast, Verktøy, Filredigering. Her kan du redigere filen direkte. En typisk robots.txt for SEO ser slik ut:

User-agent: * betyr at reglene gjelder alle søkemotorer.
Disallow: etterfulgt av en mappe eller URL-mønster blokkerer kravling av det angitte området.
Sitemap: etterfulgt av URL-en til sitemappen din forteller søkemotorene hvor de finner oversikten over sidene dine.

Du kan blokkere hele mapper (Disallow: /intern/) eller URL-er som inneholder bestemte ord (Disallow: /*certificate*). Den siste varianten bruker et jokertegn for å fange alle URL-er der ordet "certificate" forekommer, uansett posisjon.

Husk å alltid inkludere en referanse til sitemappen nederst i filen. Slik finner alle søkemotorer XML-sitemappen din automatisk, selv om du ikke har sendt den inn manuelt.

Optimaliser kravlebudsjettet med robots.txt

Kravlebudsjettet er antall sider Google vil kravle på nettstedet ditt innenfor en gitt tidsperiode. For små nettsider med under 1000 sider er dette sjelden et problem. Men for store nettbutikker eller nyhetssider med titusenvis av sider betyr det at Google ikke rekker over alt ved hvert besøk.

Ved å blokkere uviktige sider i robots.txt frigjør du kravlebudsjett til de sidene som faktisk skal rangere. Typiske kandidater for blokkering er interne administrasjonssider, gamle kampanjesider uten trafikk, og URL-er generert av sporingsparametere.

Men vær forsiktig: blokkerer du CSS- og JavaScript-filer i robots.txt, kan Google ikke gjengi sidene dine korrekt. Google trenger tilgang til disse filene for å forstå hvordan siden ser ut. Blokkering av slike ressurser kan skade rangeringen din.

Vanlige feil med robots.txt SEO og noindex

Blokkere viktige sider ved en feil. En feilskrevet regel kan blokkere hele seksjoner av nettstedet. Etter endringer i robots.txt bør du alltid teste filen i Googles dokumentasjon og Google Search Console sin robots.txt-tester for å bekrefte at viktige sider fortsatt er tilgjengelige.

Bruke robots.txt og noindex sammen. Hvis du blokkerer en side i robots.txt og også legger til noindex, kan ikke Google se noindex-taggen (fordi den ikke kravler siden). Resultatet er at siden kan forbli i søkeresultatene. Velg én metode: bruk enten robots.txt for å blokkere kravling, eller noindex for å fjerne fra søkeresultatene.

Glemme å oppdatere etter endringer. Når du lanserer nye seksjoner eller fjerner gamle, bør du gjennomgå robots.txt og noindex-tagger. Utdaterte regler kan blokkere sider du nå vil ha indeksert, eller tillate kravling av sider som ikke lenger finnes.

Test og overvåk regelmessig

Google Search Console gir deg oversikt over indekseringsstatus for alle sidene dine. Under "Sider" ser du hvilke sider som er indeksert og hvilke som er ekskludert, med årsaker. Sjekk denne rapporten jevnlig for å fange opp problemer tidlig.

Når du har gjort endringer, kan du be Google validere løsningen på nytt i Search Console. Google kjører da en ny sjekk og bekrefter om problemet er løst. Denne prosessen kan ta noen dager, så vær tålmodig.

Neste steg

Nå vet du hvordan robots.txt og noindex fungerer og når du bruker hva. For å sikre at de riktige sidene faktisk blir funnet, bør du sette opp et XML-sitemap. Har du sider med likt innhold som du vil beholde, er canonical tags en bedre løsning enn noindex. For en helhetlig sjekkliste over alle tekniske tiltak, se oversikten over teknisk SEO.

Denne videoen er hentet fra kurset SEO: komplett guide på Utdannet.no. I det fulle kurset får du en praktisk demonstrasjon av robots.txt-oppsett i WordPress, noindex-implementering, og overvåking i Google Search Console.