Steeds meer forums en open-sourceprojecten ervaren prestatiedruk door ongecontroleerd verkeer van bots, voornamelijk afkomstig van grote AI-bedrijven. Volgens een beheerder van het Diaspora*-platform is bijna 70% van het totale verkeer naar de website afkomstig van crawlers die worden ingezet door bedrijven zoals OpenAI, Amazon en Anthropic.
Dennis Schubert deed zijn beklag.
In een analyse van 11,3 miljoen verzoeken over een periode van 60 dagen bleek dat bots zoals GPTBot van OpenAI (24,6%) en Amazonbot (14,9%) verantwoordelijk waren voor een aanzienlijk deel van de serverbelasting. Vooral AI-trainingsbots onderscheiden zich door hun intensieve en vaak inefficiënte crawlgedrag, waarbij zij herhaaldelijk irrelevante pagina's bezoeken, zoals de volledige wijzigingsgeschiedenis van een wiki.
Het gevolg: hoge pieken in serverbelasting, verstoringen voor menselijke gebruikers en extra kosten voor infrastructuuronderhoud.
Een belangrijk probleem is dat deze bots zich niet houden aan de regels die zijn vastgelegd in robots.txt, een standaard die bedoeld is om bots te instrueren welke delen van een website zij mogen indexeren. Bovendien gebruiken zij technieken om blokkades te omzeilen, zoals het veranderen van hun user-agent of IP-adres.
In tegenstelling hiermee veroorzaken traditionele zoekmachinebots zoals Googlebot en Bingbot slechts een fractie van het verkeer (0,14%) en respecteren ze protocollen.
Deze situatie is niet uniek voor Diaspora. Veel forums en gemeenschapsplatforms, die vaak draaien op beperkte middelen, worden geconfronteerd met vergelijkbare uitdagingen. De bots verbruiken onevenredig veel resources, wat ten koste gaat van de gebruikservaring voor menselijke bezoekers. Voor kleine platforms kan dit zelfs leiden tot tijdelijke uitval of verminderde toegang.
AI-bedrijven gebruiken crawlers om enorme hoeveelheden data te verzamelen voor het trainen van hun modellen. Dit proces, bekend als webscraping, is essentieel voor het verbeteren van de prestaties van grote taalmodellen (LLM's) zoals ChatGPT. Maar door herhaaldelijk en vaak ongericht te crawlen, richten ze onbedoeld schade aan bij kleinere websites.