Een robots.txt-bestand is een eenvoudig tekstbestand dat je in de root van je website plaatst. Het dient als een gids voor webcrawlers (robots) en geeft aan welke delen van de website ze wel en niet mogen bezoeken. Wanneer een crawler je website bezoekt, kijkt hij eerst naar de aanwezigheid van een robots.txt-bestand om te zien welke pagina's hij mag crawlen.
Er zijn enkele instructies die je in een robots.txt-bestand kunt opnemen om de toegang van crawlers te regelen:
In dit voorbeeld worden alle crawlers geïnstrueerd om de /admin/-directory niet te crawlen, terwijl de /public/-directory wel toegankelijk is. Daarnaast wordt verwezen naar de sitemap van de website.
Let op: Dit voorbeeld klopt niet helemaal. Later in dit artikel lees je wat er mis is met dit voorbeeld.
Wil je dat zoekmachines alleen de belangrijke pagina’s van je website crawlen en indexeren? Een robots.txt-bestand helpt je om dit te bereiken door zoekmachines te sturen naar de juiste delen van je website.
Met een robots.txt-bestand kun je aangeven welke pagina's en directories zoekmachines wel en niet mogen bezoeken. Dit is handig om te voorkomen dat bepaalde delen van je website, zoals administratieve pagina’s of testomgevingen, worden gecrawled en opgenomen in zoekresultaten. Door de crawler te sturen, zorg je ervoor dat alleen de waardevolle en relevante content van je website wordt geïndexeerd. Let wel op, want eigenlijk doe je alleen een suggestie. Crawlers kunnen deze suggestie negeren.
Zoekmachines hebben een limiet op het aantal pagina's dat ze binnen een bepaalde tijd op een website zullen crawlen, het zogenaamde crawlbudget. Dit komt doordat zoekmachines dagelijks miljoenen andere websites moeten doorzoeken. Hoeveel pagina’s van jouw website worden gecrawled, hangt af van factoren zoals de grootte en de snelheid van je website. Door onbelangrijke pagina's uit te sluiten met een robots.txt-bestand, zorg je ervoor dat zoekmachines hun beperkte tijd en budget besteden aan de pagina's die er echt toe doen.
Een goed geconfigureerd robots.txt-bestand helpt crawlers om efficiënt door je website te navigeren. Dit betekent dat ze de belangrijkste pagina’s sneller en vaker kunnen bezoeken, wat kan bijdragen aan een betere indexering en hogere posities in zoekresultaten.
Volg deze stappen om een robots.txt-bestand op te stellen:
Soms maakt het ook uit in welke volgorde je disallow en allow gebruikt. Standaard geldt namelijk dat de bovenste regel leidend is. Het voorbeeld zoals je die in de bovenstaande javascript-afbeelding ziet, is dus eigenlijk fout. Disallow in namelijk de bovenste regel, waardoor Allow misschien wordt genegeerd. Wil je zeker weten dat je het goed doet? Plaats dan de allow tag boven de disallow-tag en zorg ervoor dat de allow tag specifieker is dan de disallow-tag zoals in het volgende voorbeeld:
In een robots.txt bestand kun je ook een crawldelay toepassen. Op die manier geef je aan hoe lang de crawler moet wachten tot de volgende pagina gecrawld mag worden. Dit is handig als de crawlers te snel crawlen en ervoor zorgen dat de webserver overbelast raakt. Echter heeft Google in 2019 op 2 juli aangegeven dat ze de crawldelay-regel negeren.
Een alternatief hiervoor is de crawlrate-instelling in Google Search Console. We adviseren wel om de crawlrate niet te beïnvloeden als je site het niet aan kan. Je kunt beter eerst kijken naar het optimaliseren van paginalaadtijden, serversnelheid en capaciteit om de website sneller te maken.
Om te testen of je robots.txt bestand juist is en of de URL’s daadwerkelijk geblokkeerd worden voor de crawlers, heeft Google een robots.txt tester gemaakt. Hoe je die gebruikt en wat je hier precies mee kan, lees je in dit artikel van Google over de robots.txt tester. Hier vind je tevens een link naar de robots.txt tester.
Er zijn op het internet verschillende websites te vinden waarop je erg gemakkelijk robots.txt bestanden kunt maken. Zo hoef je de code niet zelf te typen en hoef je alleen maar de gewenste instellingen en URL’s in te vullen. Hieronder vind je een aantal links naar handige robots.txt generators:
https://www.seoptimer.com/robots-txt-generator
https://smallseotools.com/robots-txt-generator/
Google heeft ook een uitgebreid artikel gemaakt over robots.txt. Hierin kun je vinden wat Google aanraadt bij het maken van een robots.txt bestand. Ook staat hierin uitgelegd hoe je dit doet en onderaan vind je een mooi overzicht van de verschillende regels die je kunt gebruiken en het effect ervan.
Een robots.txt bestand is een erg handig hulpmiddel wanneer het goed gebruikt wordt. Verkeerd gebruik kan alleen wel schadelijk zijn voor je SEO-resultaten. Daarom hebben we een aantal belangrijke aandachtspunten op een rij gezet:
Neem dan contact met ons op via het directe nummer +31(0)229 763 561
of stuur een e-mail naar info@semwerkt.nl. De experts van Semwerkt staan voor je klaar!