Op bijna elk websiteadres op het internet staat een simpel tekstbestand dat voor veel mensen onbekend is maar een belangrijke rol speelt op het internet. Dit bestand heet robots.txt en het vertelt geautomatiseerde programma’s, zoals webcrawlers, welke pagina’s ze mogen bezoeken en welke niet. Maar nu groeit de discussie over wat het betekent in een tijd waarin kunstmatige intelligentie massaal informatie verzamelt van het open internet voor trainingsdata en antwoorden, aldus
The Verge.
Wat robots.txt doet
Het robots.txt-bestand werkt volgens een protocol dat al sinds de beginjaren van het web bestaat. Het geeft crawler-programma’s een set regels over welke delen van een site ze mogen bekijken. Dit was oorspronkelijk bedoeld om servers niet te overladen met verzoeken en om
zoekmachines zoals Google te helpen efficiënt te indexeren wat relevant is. Het protocol zelf is vrijwillig: een crawler kan de regels negeren, maar respectabele bots doen dat gewoonlijk wel.
Voor website-eigenaren is robots.txt een bruikbaar middel om te zeggen dat bepaalde pagina’s of mappen niet geanalyseerd moeten worden. Bijvoorbeeld bij oude content, duplicaten of pagina’s die ze simpelweg niet willen dat zoekmachines opnemen.
Nieuwe druk door AI-crawlers
De opkomst van AI-modellen die grote hoeveelheden tekst van het web nodig hebben om te leren heeft robots.txt onder een nieuw vergrootglas gebracht. Grote AI-bedrijven gebruiken crawlers om data te verzamelen voor training of om informatie te verwerken voor antwoordsystemen. Veel websites hebben daarom hun robots.txt-bestanden aangepast om specifieke bots, zoals die van OpenAI of anderen, expliciet te blokkeren. Sommige administrateurs zetten daarin de naam van die bot in de tekst zodat die crawler niet verder moet gaan.
Toch is dat niet altijd effectief. Omdat robots.txt vrijwillig is, kunnen crawlers die geen beleefdheidsprotocol volgen de regels negeren en alsnog content ophalen. Daardoor kiezen sommige websites voor strengere technische maatregelen zoals firewall-regels of systeeminstellingen die bots blokkeren op netwerkniveau in plaats van alleen via het tekstbestand.
Discussie over normen en data-gebruik
Voorheen was robots.txt vooral een standaard om indexering door zoekmachines te sturen. Nu blijkt het belangrijker te worden als een manier voor websites om aan te geven wat ze niet willen dat AI-systemen gebruiken voor training. Deze discussie raakt aan bredere vragen over data-eigendom, eerlijke compensatie voor contentmakers en hoe AI-bedrijven omgaan met publieke informatie op het net.
Sommige experts zeggen dat het protocol aan vernieuwing toe is omdat het niet genoeg nuance biedt voor de verschillende manieren waarop AI met webinhoud omgaat. Er worden voorstellen gedaan voor nieuwe standaarden of systemen die webbeheerders meer controle geven over hoe hun content wordt gebruikt, bijvoorbeeld door te specificeren of data alleen geïndexeerd mag worden, of ook gebruikt voor training van AI.
Grenzen van technologie en normen
Robots.txt blijft een non-binding bericht aan crawlers, geen afdwingbare regel. Site-eigenaren kunnen er dus niet blind op vertrouwen dat elke crawler die regels volgt. De praktijk laat zien dat sommige crawlers de regels respecteren, vooral die van grote zoekmachines met een reputatie om die afspraken na te leven. Andere crawlers, die informatie willen verzamelen voor training van taalmodellen of AI-diensten, zijn minder betrouwbaar in hun naleving en kunnen regels negeren.
Toch blijft het bestand een belangrijk onderdeel van de infrastructuur van het web. Het vertegenwoordigt een eerste stap in het communiceren van voorkeuren tussen websites en automatische software. De groeiende rol van AI maakt duidelijk dat het internet als geheel moet nadenken over hoe data wordt gedeeld, wie daar controle over heeft en hoe nieuwe technologieen passen in decennia-oude afspraken.