Eerst scrapen, nu klagen? De distillatie-rel rond Anthropic

dinsdag, 24 februari 2026 om 20:00

“Cry me a river.”

Dat is ongeveer de teneur onder de reacties nadat Anthropic beschuldigingen uitte richting drie Chinese AI-bedrijven. Het Amerikaanse AI-lab stelt dat DeepSeek, Moonshot AI en MiniMax op industriële schaal kennis uit Claude zouden hebben “gedestilleerd”.

Maar het debat gaat niet alleen over die specifieke beschuldiging. Het gaat over iets groters: de dubbele moraal in de AI-industrie.

Drie jaar lang klagen uitgevers, journalisten en auteurs dat grote AI-labs hun content zonder expliciete toestemming hebben gebruikt om modellen te trainen. Webdata werd gescrapet. Complete archieven werden ingeladen. Het argument: publieke data, fair use, innovatiebelang.

Nu een AI-bedrijf zelf stelt dat zijn modelkennis wordt “gestolen”, klinkt er online weinig sympathie.

De tegenvraag is hard en direct:

Hebben AI-labs toestemming gevraagd aan elke auteur?
Is scraping van webdata fundamenteel anders dan distillatie van modeloutput?
Waarom is het gebruik van publieke content acceptabel, maar het hergebruiken van AI-output niet?

Dat is waar de “cry me a river”-reacties vandaan komen. Niet omdat modeldistillatie triviaal zou zijn, maar omdat de sector zelf gebouwd is op grootschalige dataverzameling.

Wat beweert Anthropic precies?

Anthropic publiceerde op 23 februari 2026 een verklaring waarin het spreekt van industrial-scale distillation attacks. Volgens het bedrijf:

Werden meer dan 24.000 frauduleuze accounts aangemaakt
Vonden ruim 16 miljoen interacties met Claude plaats
Werden geautomatiseerde bulkinteracties ingezet
Werden gebruiksvoorwaarden omzeild
Werd systematisch modelkennis geëxtraheerd

De beschuldiging is dus niet: iemand heeft onze output gelezen.

De beschuldiging is: concurrenten hebben via nepaccounts en automatisering doelbewust Claude bevraagd om de output te gebruiken als trainingsmateriaal voor hun eigen modellen.

Dat is een andere orde van grootte.

Wat is modeldistillatie?

Modeldistillatie is een bekende techniek binnen machine learning. Een kleiner model wordt getraind op de output van een groter model. Het leert patronen uit de antwoorden van een krachtiger systeem.

In onderzoek is dat normaal. Het maakt modellen efficiënter, goedkoper en sneller inzetbaar.

In commerciële context wordt het gevoeliger.

Als je een concurrent systematisch bevraagt, diens output verzamelt en daarmee je eigen model verbetert, dan kom je in juridisch en strategisch grijs gebied terecht.

Anthropic stelt dat hier geen sprake was van normaal API-gebruik, maar van industriële extractie.

Is dit hetzelfde als scraping?

Nee – en dat is waar de nuance zit.

Er is een juridisch verschil tussen:

Publieke webdata scrapen
Contractueel beschermde API-output gebruiken om een concurrerend model te trainen

Trainingsdata bestaat uit originele werken waarop auteursrecht rust. Modeloutput is gegenereerde tekst. Vaak geen directe kopie van één specifieke bron.

Maar API-gebruik valt onder contractrecht. Als gebruiksvoorwaarden expliciet verbieden dat output wordt gebruikt om concurrerende modellen te trainen, en die voorwaarden worden omzeild via nepaccounts, dan is dat geen auteursrechtkwestie maar contractbreuk.

Dat maakt het juridisch zwaarder.

✦ Volg AI Wereld op Google →

De morele discussie blijft echter ongemakkelijk.

Geopolitiek speelt mee

De betrokken bedrijven opereren vanuit China. Daarmee krijgt het dossier automatisch een geopolitieke lading.

De VS en China bevinden zich midden in een AI-wapenwedloop: halfgeleiders, compute, foundation models, exportbeperkingen.

In dat licht is dit niet alleen een IP-kwestie, maar ook een strategisch signaal.

Online klinkt al de suggestie dat Amerikaanse AI-bedrijven nu bescherming zoeken via overheid en regelgeving – nadat ze zelf jaren profiteerden van open internetdata.

Of dat frame klopt, is discutabel. Maar het sentiment is duidelijk.

Waarom dit toch geen simpele hypocrisie is

De vergelijking “jullie deden hetzelfde” is begrijpelijk, maar niet volledig symmetrisch.

Scraping van publieke webdata en het systematisch reverse engineeren van een commercieel model via contractbreuk zijn juridisch verschillende situaties.

Daarnaast is er een verschil in schaal en intentie. Als er daadwerkelijk 16 miljoen geautomatiseerde interacties zijn ingezet om modelgedrag te repliceren, dan spreken we niet over incidenteel gebruik, maar over strategische kennisextractie.

Dat is closer to competitive replication dan tot normaal API-gebruik.