AI-bedrijf Anthropic vernietigde miljoenen boeken voor chatbottraining

door Maartje

maandag, 04 augustus 2025 om 15:00

anthropic ceo voorspelt agi in 2026 in interview

Het Amerikaanse AI-bedrijf Anthropic heeft miljoenen papieren boeken gekocht, versnipperd en gescand om de chatbot Claude te trainen. De boeken, vaak tweedehands aangekocht via leveranciers als eBay en Amazon Marketplace, werden na digitalisering vernietigd. Deze werkwijze is onlangs openbaar geworden via rechtbankdocumenten in een lopende auteursrechtenzaak, zoals gemeld door Ars Technica in juni van dit jaar.

Digitaliseren onder de noemer ‘fair use’

Anthropic is mede gefinancierd door Amazon en wordt gezien als een van de belangrijkste rivalen van OpenAI. Het bedrijf wilde op legale wijze toegang tot grote hoeveelheden tekst om Claude te trainen. In februari 2024 nam het bedrijf Tom Turvey aan, het voormalige 'head of partnerships' van Google Books. Die kreeg de opdracht om ''alle boeken ter wereld'' te verkrijgen. Gepubliceerde boeken zijn aantrekkelijk voor AI-bedrijven die hun AI willen trainen met data van hoge kwaliteit.

Illegale bronnen en vervolgproces

In de eerste instantie scande Anthropic digitale boeken van piratensites. Daarmee verkreeg het bedrijf volgens de zaak ruim zeven miljoen auteursrechtelijk beschermde boeken zonder toestemming. De rechter oordeelde dat dit wél in strijd is met het auteursrecht en liet een groepsvordering van auteurs toe. Zij mogen gezamenlijk een schadeclaim indienen, waarbij per geschonden werk boetes tot $150.000 mogelijk zijn, volgens Reuters.

First-sale doctrine

Anthropic kocht daarna voor miljoenen dollars aan fysieke boeken en digitaliseerde ze voor intern gebruik. Dit deed het bedrijf door de kaften van de boeken eraf te scheuren en pagina's digitaal te scannen, waarna de digitale bestanden vervolgens aan de AI werden gevoerd. Op deze manier voldeed het bedrijf aan de first-sale doctrine: als je het fysieke boek eenmaal hebt, mag je ermee doen wat je wilt: ook vernietigen dus.

Volgens de rechtbank in Californië valt deze werkwijze deels onder ‘fair use’, een juridische uitzondering op het auteursrecht.

Wat zijn de gevolgen?

Er zijn volgens ArsTechnica geen aanwijzingen dat er zeldzame boeken zijn vernietigd. Er zijn manieren om fysieke boeken in te scannen zonder het boek te beschadigen, maar Anthropic koos voor de snelle, goedkope manier.

De uitspraak tegen Anthropic geldt als een belangrijke testcase voor de hele AI-industrie. De uitkomst kan bepalend zijn voor hoe AI-modellen in de toekomst legaal mogen worden getraind met beschermde teksten.