Indexeren is simpel gezegd het verzamelen van alle informatie op verschillende webpagina’s, zodat alle relevante informatie voor een zoekwoord binnen een tiende van een seconde op de zoekresultatenpagina wordt weergegeven. De index van een zoekmachine zou je dus kunnen zien als een archief van alle pagina’s op het internet, die elke dag wordt geüpdatet.
Het doel van een zoekmachine is om zijn gebruikers te voorzien van de meest relevante zoekresultaten voor elke zoekopdracht. Google en Bing willen zo goed mogelijk inspelen op de zoekintentie van de gebruiker en de informatie ook nog eens heel snel kunnen weergeven. Om dat te kunnen doen, slaat Google zoveel mogelijk data op in een index. Daarvoor crawlen ze elke dag heel veel pagina’s met een bot, in het geval van Google de Googlebot. Vervolgens wordt alle gecrawlde data geïndexeerd.
Omdat er elke dag zoveel websites worden gecrawld en geïndexeerd, kan Google dit niet constant voor elke website blijven doen. Zo nu en dan komt Google automatisch terug op je website om te kijken of er wijzigingen zijn, maar bij de ene website is dit vaker dan bij de andere. Een grote en populaire website die vaak updates doorvoert, zal vaker worden gecrawld dan een kleine website die weinig aanpast.
Maar als je een pagina hebt aangepast, wil je natuurlijk dat die wijzigingen direct worden opgenomen in de index. Gelukkig heeft Google Search Console hier een handige functie voor.
Klik in Google Search Console links in het menu op ‘URL-inspectie’ en vul de URL in van de aangepaste pagina. Search Console laat nu zien of de pagina wel of niet is geïndexeerd.
Mocht de pagina niet zijn geïndexeerd? Klik dan simpelweg op ‘Indexering aanvragen’ en de pagina wordt gecrawld en geïndexeerd. Dit kun je ook doen wanneer de URL al is geïndexeerd.
Er is nog een manier om ervoor te zorgen dat je pagina’s regelmatig worden gecrawld. Dit kun je doen met een changefrequency tag in je XML-sitemap. Hiermee kun je aangeven hoe vaak de crawler langs moet komen. Natuurlijk is het wel van belang dat je de sitemap hebt ingediend in Search Console.
Met een lastmodified tag kun je aangeven wanneer een pagina voor het laatst is aangepast. Zo krijgt de crawler een indicatie van de pagina’s die bezocht moeten worden. Dat is belangrijk omdat je ook rekening moet houden met het beschikbare crawlbudget. Zoekmachines crawlen namelijk een gelimiteerd aantal pagina’s in een bepaalde tijd. Het aantal pagina’s dat dagelijks op jouw website gecrawld wordt, is onder van de grootte van je website. Het crawlbudget van een grote website is over het algemeen hoger dan die van een kleine website. Daarnaast speelt de snelheid ook een rol. Als het laden van pagina’s lang duurt, dan is er logischerwijs minder tijd over voor het crawlen. Zorg er dus voor dat je website snelheid zo snel mogelijk is.
Wil je liever niet dat een specifieke pagina wordt geïndexeerd, bijvoorbeeld een bedankt-pagina? Gebruik dan een disallow-tag in je robots.txt bestand. Met een disallow-tag in dit bestand kun je aangeven dat de crawler een bepaalde URL niet mag volgen. Zo wordt de kans dat de pagina geïndexeerd wordt minimaal. Wil je meer informatie over waarom die kans niet honderd procent is? Dat lees je in ons artikel over robots.txt.
Eerder hebben we al laten zien hoe je kunt nagaan of een pagina wel of niet geïndexeerd is. Echter zal het je wel heel veel tijd kosten om dit voor alle pagina’s te gaan doen. Hieronder lees je hoe je dit sneller kunt doen.
Om alle pagina’s die door Google zijn geïndexeerd te zien, is er een handig trucje in Google. Door in de zoekbalk ‘site:’ te typen voor de sitenaam, krijg je alle geïndexeerde pagina’s van die domeinnaam te zien. Voor Semwerkt is dat bijvoorbeeld ‘site:semwerkt.nl’. Nu worden alle geïndexeerde pagina’s van Semwerkt in een resultatenpagina neergezet. Dit kan ook voor pagina’s die onder een subcategorie vallen. Om bijvoorbeeld snel te zien of al onze blogberichten geïndexeerd zijn, zoeken we op ‘site:semwerkt.nl/blog’. Superhandig om snel je eigen website te checken of een andere website.
Dan is er nog een handig overzicht in Google Search Console. Om een overzicht van alle pagina’s te zien, ga je naar het kopje ‘dekking’. Hier krijg je informatie over hoeveel pagina’s geïndexeerd zijn en welke pagina’s dat zijn.
Daarbij zie je ook nog of er fouten bij pagina’s zijn gevonden en welke pagina’s zijn uitgesloten van de indexatie. Search Console geeft ook een waarschuwing als een pagina is geïndexeerd, die misschien niet geïndexeerd had moeten worden. Bijvoorbeeld door een robots.txt tag. Het kan namelijk voorkomen dat de crawler die tag negeert. Hieronder zie je hoe al deze informatie wordt weergegeven in Search Console.
Neem dan contact met ons op via het directe nummer +31(0)229 763 561
of stuur een e-mail naar info@semwerkt.nl. De experts van Semwerkt staan voor je klaar!