Wat Googlebot en AI-crawlers echt op je site doen

Google Search Console geeft je een nette samenvatting: zoveel pagina's gecrawld, zoveel geïndexeerd, een grafiekje crawlverzoeken per dag. Wat het je niet vertelt, is welke pagina's Googlebot precies bezoekt, hoe vaak, en waar de bot zijn tijd aan verspilt. En over de nieuwste groep bezoekers van je site, de AI-crawlers van OpenAI, Anthropic en Perplexity, zwijgt het volledig. Voor die bots bestaat geen Search Console.

Je serverlogbestanden vullen dat gat. Ze leggen elk verzoek vast dat binnenkomt: elk IP-adres, elke opgevraagde URL, elke statuscode, elke user-agent. Het is de enige bron die letterlijk alles registreert wat een crawler op je site doet, zonder steekproef en zonder vertraging. Wie wil weten of zijn investering in content en backlinks daadwerkelijk wordt opgepikt, leest geen dashboard maar zijn eigen logs.

Wat legt een serverlog precies vast?

Een serverlog is een tekstbestand waarin je webserver elke binnenkomende aanvraag op een aparte regel wegschrijft. Apache en Nginx gebruiken standaard het zogenoemde combined log format. Eén regel ziet er ongeveer zo uit:

66.249.66.1 - - [28/May/2026:09:14:02 +0200] "GET /diensten/linkbuilding/ HTTP/1.1" 200 18342 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

In die ene regel staat alles wat je nodig hebt. Van links naar rechts: het IP-adres van de bezoeker, de datum en tijd, de opgevraagde URL met methode, de HTTP-statuscode (hier een 200), het aantal verzonden bytes, de verwijzende pagina, en helemaal achteraan de user-agent die verraadt wie er aanklopt. Vermenigvuldig dat met honderdduizenden regels per maand en je hebt een compleet bewegingsregister van iedere bot en bezoeker.

Het verschil met Search Console zit in de ruwheid. Search Console aggregeert, bemonstert en vertraagt: je ziet totalen en trends, geen losse verzoeken. Op sites met meer dan vijftigduizend URL's wordt dat een probleem, want dan toont het rapport alleen nog een fractie van wat er werkelijk gebeurt. Logs kennen die limiet niet. Ze tonen elke individuele hit, inclusief de pagina's waarvan je niet eens wist dat ze bestonden.

Je vindt de bestanden op je server meestal in /var/log/nginx/ of /var/log/apache2/, op CentOS-systemen in /var/log/httpd/. Werk je met een controlepaneel als DirectAdmin of cPanel, dan staan de zogeheten raw access logs vaak achter een knop in je dashboard. Belangrijk om te weten: veel hosters bewaren logs maar enkele dagen. Wie patronen wil zien, moet ze structureel wegschrijven naar bijvoorbeeld externe opslag, anders is de data verdwenen voordat je iets nuttigs kunt concluderen.

Waarom is logfile-analyse juist nu belangrijk?

Omdat er een compleet nieuwe categorie bezoekers is bijgekomen waarvoor geen enkel dashboard bestaat. AI-crawlers halen massaal content op om taalmodellen te trainen en om antwoorden in ChatGPT, Claude en Perplexity van bronnen te voorzien. Of jouw pagina's daarin meedoen, zie je nergens terug, behalve in je logs. Zoals Search Engine Land het stelt: er is geen AI-equivalent van Search Console, en logbestanden zijn voorlopig de enige manier om te zien hoe AI-systemen je site werkelijk benaderen.

De cijfers maken duidelijk hoe scheef die nieuwe verhouding ligt. Volgens data van Cloudflare haalt GPTBot van OpenAI ruwweg duizend tot ruim twaalfhonderd pagina's op voor elke bezoeker die het via een citatie terugstuurt. Bij ClaudeBot van Anthropic loopt die verhouding in de tienduizenden. Ter vergelijking: Googlebot zit rond de vijf opgehaalde pagina's per doorverwezen bezoeker, en DuckDuckGo benadert zelfs een gezonde één-op-één. AI-bots nemen dus veel en geven weinig terug. Tegelijk vormen ze inmiddels een fors deel van al het botverkeer: GPTBot en ClaudeBot zijn samen goed voor zo'n vijfde van het wereldwijde crawlvolume, met Googlebot nog altijd als grootste.

Dat heeft een praktische keerzijde. Steeds meer sites zetten de deur dicht: Cloudflare blokkeert AI-crawlers inmiddels standaard en biedt een betaalmodel waarbij een bot een 402-foutmelding krijgt tenzij hij per opgevraagde pagina betaalt. Miljoenen domeinen weigeren AI-training volledig. Of jij bewust open of dicht staat voor die bots, en of ze daadwerkelijk binnenkomen, controleer je het betrouwbaarst in je logs. Een lege regel waar GPTBot zou moeten staan, betekent simpelweg dat je niet wordt meegenomen.

Welke crawlers moet je in je logs herkennen?

Het draait om twee soorten bots, en het onderscheid bepaalt hoe je de data leest. Trainingscrawlers verzamelen content voor toekomstige modellen en komen onregelmatig en in golven langs. Ophaalcrawlers reageren op een concrete vraag van een gebruiker en bezoeken gericht enkele URL's. Je herkent ze aan het stukje tekst in de user-agent. Een actuele lijst houdt Search Engine Journal bij, maar dit zijn de namen die je nu in vrijwel elk logbestand tegenkomt:

Googlebot (Googlebot/2.1) - de klassieke zoekmachinecrawler die je belangrijkste indexeringsbron blijft.
GPTBot (GPTBot/1.1) - haalt content op die OpenAI gebruikt om modellen te trainen.
OAI-SearchBot (OAI-SearchBot/1.0) - indexeert pagina's voor de zoekfunctie binnen ChatGPT, los van training.
ChatGPT-User (ChatGPT-User/1.0) - bezoekt een pagina alleen wanneer een gebruiker ChatGPT vraagt die specifieke link te openen.
ClaudeBot - de crawler van Anthropic, berucht om zijn extreem hoge crawlvolume.
PerplexityBot - haalt bronnen op voor de antwoorden van Perplexity.
Google-Extended - bepaalt of Google jouw content voor Gemini en AI-trainingen mag gebruiken, los van gewone indexering.

Dat onderscheid is geen detail. Zie je wel GPTBot maar nooit OAI-SearchBot, dan word je misschien wel gebruikt voor training, maar verschijn je niet in de live zoekresultaten van ChatGPT. Komt ChatGPT-User regelmatig langs, dan vragen echte gebruikers actief om jouw pagina's. Door per user-agent te filteren, zet je het gedrag van elke bot naast elkaar en zie je precies welke content waar terechtkomt.

Hoe weet je of het echt Googlebot is?

Vertrouw nooit blind op de user-agent, want die tekst is triviaal te vervalsen. Iedere scraper of spamtool kan zich "Googlebot" noemen om je vriendelijker te laten reageren. Onderzoek laat zien dat tussen de twaalf en achttien procent van het verkeer dat zich als Googlebot voordoet, in werkelijkheid nep is. Wie zijn logs serieus neemt, controleert de identiteit.

Google beschrijft daar zelf de officiële methode voor in de documentatie over het verifiëren van Googlebot. De kern is een dubbele DNS-controle. Je neemt het IP-adres uit je log en doet er een reverse DNS-lookup op met het host-commando. Het resultaat moet eindigen op googlebot.com, google.com of googleusercontent.com. Vervolgens doe je een forward lookup op die hostnaam en controleer je of die weer uitkomt op exact hetzelfde IP-adres. Klopt die heen-en-terugcontrole, dan is het echt. Een vervalser kan namelijk wel de user-agent namaken, maar niet beide kanten van Googles DNS.

Voor wie dit op grote schaal wil automatiseren, publiceert Google de IP-ranges van zijn crawlers als JSON-bestand. Logtools als Screaming Frog en de Semrush Log File Analyzer doen die verificatie standaard en markeren vervalste verzoeken automatisch. Reken je af op ongeverifieerde data, dan baseer je beslissingen op verkeer dat misschien helemaal niet van Google komt.

Hoe ziet verspild crawlbudget eruit in je logs?

Verspild crawlbudget herken je aan bots die hun tijd verdoen aan pagina's die er commercieel niet toe doen. In de praktijk blijkt dertig tot veertig procent van alle crawlverzoeken naar URL's te gaan die een bedrijf nooit bewust zou prioriteren. Denk aan eindeloze filtercombinaties in een webshop, URL's met sessieparameters, printvriendelijke varianten, interne zoekresultaten en oude redirectketens. Elke keer dat Googlebot zo'n waardeloze URL ophaalt, is dat een verzoek dat niet naar je belangrijke pagina's gaat.

Crawlbudget is het aantal pagina's dat Google binnen een bepaalde periode op je site wil ophalen, en op grotere sites is dat eindig. Google legt in zijn handleiding over crawlbudget uit dat het wordt bepaald door de capaciteit van je server en de interesse van Google in je content. Je logs laten zien waar dat budget heen lekt. Sorteer je crawlverzoeken op URL, dan zie je meteen welke nutteloze patronen de meeste hits opslokken.

Let daarbij vooral op de statuscodes. Een berg 404's die bots blijven opvragen, verspilt budget aan pagina's die niet meer bestaan. Lange ketens van 301-redirects vertragen elke crawl. Duiken er 403- of 429-codes op bij AI-crawlers, dan blokkeer of beperk je ze mogelijk zonder het te weten. En blijft een belangrijke nieuwe pagina dagen of weken onaangeraakt in je logs, dan is dat een hard signaal dat je interne links die pagina niet goed doorgeven.

Een eerste logfile-analyse in vijf stappen

Je hebt geen duur platform nodig om te beginnen. Met een logbestand en de commandregel kom je al ver. Werk deze volgorde af:

Haal je logs op. Download het toegangslogbestand van de afgelopen weken via je hoster of kopieer het van de server. Hoe langer de periode, hoe betrouwbaarder het beeld, zeker bij grillige AI-crawlers.
Filter op één crawler. Tel hoe vaak een bot langskwam met een simpele regel, bijvoorbeeld grep "GPTBot" access.log | wc -l. Herhaal dat voor Googlebot, ClaudeBot en de rest om de verhoudingen te zien.
Zoek de probleemcodes. Filter op foutcodes met iets als grep "Googlebot" access.log | grep ' 404 ' en breng in kaart welke niet-bestaande of geblokkeerde pagina's bots blijven opvragen.
Rangschik op opgevraagde URL. Tel per pagina hoeveel crawlhits er binnenkomen en zet ze van hoog naar laag. Bovenaan hoor je je geldpagina's te zien, niet je interne zoekresultaten.
Verifieer en verdiep. Controleer verdachte bots met de DNS-methode en laad het bestand desgewenst in een tool als de Screaming Frog Log File Analyser voor sorteerbare overzichten van crawlfrequentie, statuscodes en responstijden.

Na deze ronde weet je drie dingen die geen enkel ander rapport je geeft: welke bots je site echt bezoeken, welke pagina's hun aandacht krijgen, en waar ze tegen muren oplopen.

Wat je deze week met je logs kunt doen

Logfile-analyse klinkt als technisch monnikenwerk, maar de eerste winst pak je in een uur. Begin klein en concreet:

Controleer of AI-crawlers binnenkomen. Grep je logs op GPTBot, ClaudeBot en PerplexityBot. Staan ze er niet, dan mis je structureel zichtbaarheid in AI-antwoorden en is dat je eerste werkpunt.
Stop de grootste lekken. Identificeer de nutteloze URL-patronen die het meeste crawlbudget opslokken en sluit ze af met robots.txt, canonicals of nette redirects.
Bewaar je logs langer. Zet automatisch wegschrijven aan, zodat je over een paar maanden patronen kunt zien in plaats van losse momentopnames.

De diepere les is simpel. Je kunt nog zo veel investeren in sterke content en autoritaire backlinks, maar het rendeert pas als crawlers die pagina's daadwerkelijk ophalen en indexeren. Een backlink naar een pagina die Googlebot nauwelijks bezoekt, geeft zijn waarde maar traag door. Je logs zijn de enige plek waar je dat hele proces kunt controleren in plaats van erop te hopen. Begin met lezen, en je site verandert van een zwarte doos in een open boek.

Google crawlbudget logfile-analyse AI-crawlers GPTBot

Geschreven door

Michael Groeneweg

Oprichter SEOLinker

Michael is oprichter van SEOLinker en helpt bedrijven met hun online zichtbaarheid via linkbuilding. Met meer dan 10 jaar ervaring in SEO en digital marketing adviseert hij ondernemers en bureaus over effectieve backlink-strategieen.