noindex, nofollow, robots.txt

Af Anders Gerlev Herstrøm

28. oktober 2022 Læsetid: 12 minutter

Det skal du ikke bekymre dig om – er det ultra-korte svar.

Den lidt længere udgave får du ved at læse videre på siden her, hvor jeg gennemgår de forskellige tags, deres betydning og hvad Google siger om dem.

noindex

“noindex” er et værktøj til at forhindre at indhold på din hjemmeside vises i søgeresultater.

Dit første spørgsmål bør være: “Hvornår skal indhold fjernes fra søgeresultaterne?”

Indhold bør fjernes fra Google, hvis det ikke giver værdi til brugere eller du gerne vil undgå at det kan findes af offentligheden.

Nogle eksempler på sider, som ikke bør dukke op i søgeresultater:

Web-udgaver af nyhedsmails
Kampagnesider som anvendes i forbindelse med e-mail marketing eller anden annoncering
Test-domæner/sider
Indhold og produkter som er under opbygning

“noindex” bør ikke anvendes til at skjule indhold, som af juridiske årsager skal skjules. Et eksempel kunne være produktsiden for en ny film eller et spil, som endnu ikke har fået en officiel udgivelsesdato, men på den produktside du har forberedt har angivet en forventet leveringsdato. Denne type indhold skal være i stedet være utilgængeligt for både søgemaskiner og mennesker, f.eks. med password-beskyttelse. Det samme gælder indhold, som brugere skal købe sig adgang til eller kun skal være tilgængeligt når de skriver sig op til et nyhedsbrev.

Er dit indhold allerede blevet fundet af Google og du ønsker at fjerne det fra Google, skal du bruge Google Search Consoles værktøj, “Fjernelser”.

Ønsker du at fjerne indhold på andres hjemmesider fra Google, skal der være en god grund til det, f.eks. personlige oplysninger om dig eller materiale du ejer ophavsretten til. Se links til værktøjer nederst i artiklen.

PDF’er

Først er det vigtigt at vi lige definerer hvad PDF’er bruges til: Tryk – altså til at printe på noget fysisk som papir i en brochure, en roll-up banner eller papkasser.

Laver du indhold, som skal læses på en skærm (mobil, tablet, computer), så skal det ikke være en PDF.

Selv hvis du følger dette råd, bør du sjældent anvende noindex på PDF’er – en formular som skal printes og udfyldes kan være rar at kunne finde direkte via Google.

Mit bedste råd til dig, der går og overvejer om PDF’er skal have noindex eller ej, er at fokusere din indsats på at digitalisere hvad end det er der i dag, er en PDF.

Handelsbetingelser, returpolitik og cookieinformation

Det kan være fristende at tænke, at du ikke ønsker Google indekserer sider, som du udelukkende har, fordi det er et lovkrav. Her vil jeg i stedet opfordre til at gribe opgaven anderledes an, og spørge dig selv: “Hvad skal jeg gøre, for at mine handelsbetingelser ser godt ud for brugeren?”

Vores erfaring er, at let-læselige og gode handelsbetingelser kan være forskellen på om kunder vælger at handle hos webshop A eller B. Se det som en salgstale; gode handelsbetingelser for kunden kan være mere værd end eksempelvis 10 % rabat. Det giver tryghed at vide, at hvis der er problemer med produktet eller kunden ombestemmer sig, så hjælper din virksomhed kunden videre.

Mit andet argument for at lade det forblive synligt er, at når du begynder at rode med et værktøj så kraftfuldt som noindex, så risikerer du let at fjerne noget, som har betydning for dine placeringer i dag. Google deler ikke opskriften på gode placeringer, men en del af faktorerne handler om tillid, noget som offentligt tilgængelige handelsbetingelser må siges at være en del af.

Tredje og sidste argument for at lade indholdet forblive synligt på Google: Det kunne være rart for brugere at have adgang til indholdet via Google. Søgninger på [webshopnavn handelsbetingelser] forekommer og manglende resultater ville give en træls oplevelse.

“index”

Dette er ikke et gyldigt tag. Jeg har set flere gamle CMS’er og SEO plugins som giver mulighed for at angive “index”, men det er fuldstændig unødvendigt. Googlebot antager at hvis der ikke er angivet “noindex”, så må en side gerne indekseres.

Finder du denne slags fyld i kildekoden på din hjemmesiden, så ville jeg overveje at få siden gennemgået af en SEO ekspert. At tagget er sat ind på hjemmesiden er i sig selv ikke det store problem, men en fejl kommer sjældent alene, siger min erfaring desværre. Og selvom inklusion af "index" ikke er en fejl, så er det et tegn på, at der under opbygningen af hjemmesiden er fulgt nogle forældede standarder og så tænker jeg bare: "Hvad har de ellers lavet af mærkelige ting?" – som iøvrigt ikke begrænser sig til SEO! Som "teknikeren" i et digital marketing bureau ser jeg rigtig meget mærkelig kode, der bør rettes op på.

nofollow

“nofollow” fortæller Google at du ikke vil have din side associeret med destinationen.

Med andre ord: Hvis du af den ene eller anden grund ikke kan eller vil stå inde for indholdet på den anden side af et link, så overvej at anvende attributten “nofollow”.

Sammen med “nofollow” hører “ugc” og “sponsored”. Disse er uddybninger af hvilken type links det er.

“ugc” står for User Generated Content og bruges til at markere links i eksempelvis kommentarer, anmeldelser og andet, som er lavet af brugere af din hjemmeside.

“sponsored” anvendes til links som der betales for. Det kan f.eks. være i en artikel som er købt af den virksomhed der omtales, eller affiliate-links, hvor der betales for leads eller salg. Et godt eksempel er anmeldelser af produkter du har modtaget som gave. Som tommelfingerregel skal dette tag anvendes når markedsføringsloven påkræver markering af indhold som sponsoreret/reklame.

“nofollow” kan anvendes på ovenstående samt alle andre typer af links, hvor vi gerne vil tage afstand fra sidens indhold eller ejer.

“dofollow” og “follow”

Disse tags findes ikke. Google og andre søgemaskiner antager at hvis der ikke er angivet noget, så må de gerne følge links på dem og du som hjemmesideejer vil gerne associeres med indholdet på den anden side af et link.

robots.txt

Filen robots.txt er et sæt instruktioner til robotter, ikke kun Google, selvom jeg dog vil fokusere på Google i indlægget her.

robots.txt er IKKE et værktøj til at fjerne indhold fra Google – her skal du i stedet:

Bede Google om ikke at indeksere med noindex
Beskytte indholdet med et kodeord
Fjerne det fra din offentlige hjemmeside
Bede Google fjerne indholdet via Google Search Console

På baggrund af at jeg mere end én gang har måtte rydde open fejlkonfigureret robots.txt-fil, er min anbefaling at efterlade filen helt tom. Er du blandt de læsere som ved at man i robots.txt kan angive et sitemap, er mit svar at dette bør tilføjes i Google Search Console i stedet.

Grunden til at der skal være en fil, er for at Google kan se at der ikke er angivet nogle regler. Vi har oplevet at Google husker de gamle regler og følger dem eller at fordi filen mangler og hjemmesiden derfor melder fejl, så bliver alle sider fjernet fra Googles indeks. Selvom fejlen er let at rette, så kan det betyde et alvorligt og langvarigt dyk i placeringer.

Opsummering

Det jeg håber du får med fra indlægget her, er at de forskellige meta-tags og robots.txt-filen er nogle magtfulde værktøjer i forhold til at styre hvad Google ser og gør med det den ser på din hjemmeside. Men vigtigst er, at du forstår at det kan være farligt at rode med selv og at du i langt de fleste tilfælde er bedre tjent med at bruge andre tiltag, end noindex eller robots.txt til at fjerne indhold fra Google.

Lad Google gøre sit og fokusér på at lave en god hjemmeside til dine besøgende, så er jeg sikker på, at du nok skal se resultater af jeres søgemaskineoptimering.

Hvis du oplever problemer med noget af ovenstående eller har spørgsmål til om I gør det rigtigt, så vil vi gerne hjælpe – du har sandsynligvis ikke en udfordring, vi ikke har løst før (og hvis du har, så tror vi på at vi har erfaringen til at hjælpe dig videre).

Ofte stillede spørgsmål

Hvordan bruger man "noindex"?

Alt efter hvor meget "programmør" du er, så findes der forskellige metoder:

Brug den indbyggede funktion der forhåbentligt findes i dit CMS, den ligger muligvis under nogle "SEO-indstillinger" for den enkelte side.
Indsæt følgende i head-sektionen på siden der skal have noindex: <meta name="robots" content="noindex">
Medsend følgende i din HTTP response header: X-Robots-Tag: noindex

Er du det mindste i tvivl, så kontakt din udvikler for vejledning til lige netop din hjemmeside.

Hvordan bruger man "nofollow"?

Din HTML-kode for et link kan eksempelvis se således ud:

<a rel="nofollow" href="https://www.youtube.com/shorts/4UlA7I3B0AM">Sejt robotkostume lavet af papkasser</a>
<a rel="ugc" href="https://makey.biz/seo/tools/">Fed artikel! Jeg har lavet min egen liste over mine yndlings SEO-værktøjer her</a>
<a rel="sponsored" href="https://morningscore.io/?fpr=kendskab">Prøv Morningscore gratis i 14 dage</a>

Det er rel="X"-delen som angiver at vi ikke vil associeres med destinationen. Det behøver ikke stå som det første, vi kunne også skrive...

<a href="https://eksempel.dk" rel="nofollow">Eksempel</a>

... og opnå den samme effekt.

I nogle CMS'er kan det slås til/fra med et flueben når du indsætter et link, i andre skal du ind og redigere i kildekoden. Skal du have rel="ugc" på alle kommentarer på din blog (som det anbefales), så tal med din udvikler om at implementere det, hvis det ikke er standard.

Vil du anvende "nofollow" på alle links på en side, så kan det gøres ved at tilføje følgende i head-sektionen på en side:

<meta name="robots" content="nofollow" />

Generelt fraråder vi brug af ovenstående, men det kan være relevant, hvis vi eksempelvis på en offentlig side linker ind til et intranet Google ikke har adgang til, men som er rart for en lukket brugergruppe at kunne tilgå.

Kan man blokere robotter som Google Bard?

Ja og nej.

Google og Microsoft er eksempelvis gode til at adlyde, når man beder dem lade være med at indeksere indhold. Men, der er ingen garanti for, at bare fordi vi beder om at robotter skal lade være med at indeksere vores indhold, så hører de efter.

Hvis du vil blokere eksempelvis Google Bard fra at kigge på din hjemmeside, så kan du gøre det ved at tilføje følgende til din robots.txt-fil (Uden anførselstegn):

"User-agent: Google-Extended
Disallow: /"

Wikipedia har en liste over de mest kendte web-crawlere.

Generelt er det sådan, at robotter du gerne vil og som giver mening at blokere ikke frivilligt lader sig stoppe. Her skal der stærkere midler til, typisk i form af DDoS-beskyttelse af serveren. Den slags kan også være farligt og f.eks. stå i vejen for nogle af de analyse-værktøjer vi hos Kendskab bruger til at finde problemer på din hjemmeside. Hvis du selv finder ud af det før din hosting-udbyder kontakter dig, så kan jeg nok ikke lære dig noget :)

Hvad med PDF præsentationer og kataloger?

Præsentationer gemt som PDF fra et kursus, årsmøde, generalforsamling o.lign. kan sagtens uploades på hjemmesiden som de er. Den vigtigste overvejelse at gøre sig er, om indholdet skal stå på egne ben og være en del af markedsføringen for din virksomhed. Det skal den slags præsentationer sjældent.

Kataloger ville jeg gøre "internet-venlige" og i stedet opfordre til at gøre hjemmesiden til et "levende katalog". Er der tale om historiske kataloger eller digitale udgaver af vores trykte udgivelser, altså hvor den trykte version er den primære udgave og kataloget aldrig har skulle "gøre noget" online, fordi indholdet findes på hjemmesiden andetsteds, så lad dem blive som PDF'er.

Jeg fik ikke svar på mit spørgsmål!

Send mig en mail, så kigger jeg på det og tilføjer det ovenfor sammen med de andre spørgsmål jeg har fået :)

Skriv til anders@kendskab.dk