Wat is robots.txt?

Een robots.txt-bestand is een eenvoudig tekstbestand dat je in de root van je website plaatst. Het dient als een gids voor webcrawlers (robots) en geeft aan welke delen van de website ze wel en niet mogen bezoeken. Wanneer een crawler je website bezoekt, kijkt hij eerst naar de aanwezigheid van een robots.txt-bestand om te zien welke pagina's hij mag crawlen.

Belangrijke instructies in een robots.txt-bestand

Er zijn enkele instructies die je in een robots.txt-bestand kunt opnemen om de toegang van crawlers te regelen:

  • User-agent: hiermee geef je aan voor welke crawler de regels gelden. Bijvoorbeeld, ‘User-agent: *’ geldt voor alle crawlers;
  • Allow: hiermee geef je specifieke pagina's of directories aan die wél gecrawld mogen worden;
  • Disallow: hiermee geef je aan welke pagina's of directories niet gecrawld mogen worden;
  • Sitemap-verwijzing: hiermee wijs je crawlers naar de locatie van je sitemap om ervoor te zorgen dat ze de belangrijkste pagina's van je website vinden.

Voorbeeld van een robots.txt-bestand

In dit voorbeeld worden alle crawlers geïnstrueerd om de /admin/-directory niet te crawlen, terwijl de /public/-directory wel toegankelijk is. Daarnaast wordt verwezen naar de sitemap van de website.

Let op: Dit voorbeeld klopt niet helemaal. Later in dit artikel lees je wat er mis is met dit voorbeeld.

Waarom een robots.txt-bestand gebruiken?

Wil je dat zoekmachines alleen de belangrijke pagina’s van je website crawlen en indexeren? Een robots.txt-bestand helpt je om dit te bereiken door zoekmachines te sturen naar de juiste delen van je website.

Beheer welke pagina's worden gecrawled

Met een robots.txt-bestand kun je aangeven welke pagina's en directories zoekmachines wel en niet mogen bezoeken. Dit is handig om te voorkomen dat bepaalde delen van je website, zoals administratieve pagina’s of testomgevingen, worden gecrawled en opgenomen in zoekresultaten. Door de crawler te sturen, zorg je ervoor dat alleen de waardevolle en relevante content van je website wordt geïndexeerd. Let wel op, want eigenlijk doe je alleen een suggestie. Crawlers kunnen deze suggestie negeren.

Bespaar op het crawlbudget

Zoekmachines hebben een limiet op het aantal pagina's dat ze binnen een bepaalde tijd op een website zullen crawlen, het zogenaamde crawlbudget. Dit komt doordat zoekmachines dagelijks miljoenen andere websites moeten doorzoeken. Hoeveel pagina’s van jouw website worden gecrawled, hangt af van factoren zoals de grootte en de snelheid van je website. Door onbelangrijke pagina's uit te sluiten met een robots.txt-bestand, zorg je ervoor dat zoekmachines hun beperkte tijd en budget besteden aan de pagina's die er echt toe doen.

Stuur crawlers de juiste kant op

Een goed geconfigureerd robots.txt-bestand helpt crawlers om efficiënt door je website te navigeren. Dit betekent dat ze de belangrijkste pagina’s sneller en vaker kunnen bezoeken, wat kan bijdragen aan een betere indexering en hogere posities in zoekresultaten.

Hoe maak je een robots.txt bestand?

Volg deze stappen om een robots.txt-bestand op te stellen:

  • Open een teksteditor: gebruik een eenvoudige teksteditor zoals Notepad of TextEdit om je robots.txt-bestand aan te maken;
  • Definieer de user-agent: begin met het specificeren van de crawlers waarvoor je de regels opstelt, bijvoorbeeld User-agent: * voor alle crawlers;
  • Voeg regels toe: voeg regels toe voor de directories of pagina's die je wilt toestaan of blokkeren met Allow en Disallow;
  • Voeg een sitemap-verwijzing toe: als je een sitemap hebt, geef dan de locatie aan met Sitemap: http://www.jouwwebsite.nl/sitemap.xml;
  • Sla het bestand op: sla het bestand op als robots.txt en plaats het in de root-directory van je website.

De hiërarchie van een robots.txt

Soms maakt het ook uit in welke volgorde je disallow en allow gebruikt. Standaard geldt namelijk dat de bovenste regel leidend is. Het voorbeeld zoals je die in de bovenstaande javascript-afbeelding ziet, is dus eigenlijk fout. Disallow in namelijk de bovenste regel, waardoor Allow misschien wordt genegeerd. Wil je zeker weten dat je het goed doet? Plaats dan de allow tag boven de disallow-tag en zorg ervoor dat de allow tag specifieker is dan de disallow-tag zoals in het volgende voorbeeld:

Wat is een crawl delay en hoe gebruik ik het?

In een robots.txt bestand kun je ook een crawldelay toepassen. Op die manier geef je aan hoe lang de crawler moet wachten tot de volgende pagina gecrawld mag worden. Dit is handig als de crawlers te snel crawlen en ervoor zorgen dat de webserver overbelast raakt. Echter heeft Google in 2019 op 2 juli aangegeven dat ze de crawldelay-regel negeren

Een alternatief hiervoor is de crawlrate-instelling in Google Search Console. We adviseren wel om de crawlrate niet te beïnvloeden als je site het niet aan kan. Je kunt beter eerst kijken naar het optimaliseren van paginalaadtijden, serversnelheid en capaciteit om de website sneller te maken. 

Robots.txt bestand controleren met de robots.txt tester

Om te testen of je robots.txt bestand juist is en of de URL’s daadwerkelijk geblokkeerd worden voor de crawlers, heeft Google een robots.txt tester gemaakt. Hoe je die gebruikt en wat je hier precies mee kan, lees je in dit artikel van Google over de robots.txt tester. Hier vind je tevens een link naar de robots.txt tester.

Robots.txt generator

Er zijn op het internet verschillende websites te vinden waarop je erg gemakkelijk robots.txt bestanden kunt maken. Zo hoef je de code niet zelf te typen en hoef je alleen maar de gewenste instellingen en URL’s in te vullen. Hieronder vind je een aantal links naar handige robots.txt generators:

https://www.seoptimer.com/robots-txt-generator

https://smallseotools.com/robots-txt-generator/

Google heeft ook een uitgebreid artikel gemaakt over robots.txt. Hierin kun je vinden wat Google aanraadt bij het maken van een robots.txt bestand. Ook staat hierin uitgelegd hoe je dit doet en onderaan vind je een mooi overzicht van de verschillende regels die je kunt gebruiken en het effect ervan. 

Belangrijke aandachtspunten

Een robots.txt bestand is een erg handig hulpmiddel wanneer het goed gebruikt wordt. Verkeerd gebruik kan alleen wel schadelijk zijn voor je SEO-resultaten. Daarom hebben we een aantal belangrijke aandachtspunten op een rij gezet:

  • Het bestand moet in de root van de website staan en moet robots.txt heten. Bijvoorbeeld: www.semwerkt.nl/robots.txt;
  • Een grote misvatting is dat je middels een robots.txt bestand ervoor kunt zorgen dat pagina’s niet worden geïndexeerd. Dat is niet juist. Indexatie kan nog steeds voorkomen wanneer externe websites verwijzen naar die pagina’s;some text
    • Indexatie voorkom je door gebruik te maken van een noindex-tag;
  • Het robots.txt bestand is voor iedereen bereikbaar. Zet er dus geen gevoelige informatie in zoals wachtwoorden of privacygegevens;
  • Je site kan maar één robots.txt bestand bevatten;
  • De instructies in het bestand worden niet altijd opgevolgd. De crawler bepaalt of hij dat wel of niet doet. Google en de meeste andere gerespecteerde zoekmachines respecteren de robots.txt vrijwel altijd, maar er zijn bots die het niet doen. Bijvoorbeeld malware-bots die op zoek zijn naar gevoelige informatie.

Meer weten?

Neem dan contact met ons op via het directe nummer +31(0)229 763 561
of stuur een e-mail naar info@semwerkt.nl. De experts van Semwerkt staan voor je klaar!