“Cry me a river.”
Dat is ongeveer de teneur onder de reacties nadat
Anthropic beschuldigingen uitte richting drie Chinese AI-bedrijven. Het Amerikaanse AI-lab stelt dat DeepSeek, Moonshot AI en MiniMax op industriële schaal kennis uit
Claude zouden hebben “gedestilleerd”.
Maar het debat gaat niet alleen over die specifieke beschuldiging. Het gaat over iets groters: de dubbele moraal in de AI-industrie.
Drie jaar lang klagen uitgevers, journalisten en auteurs dat grote AI-labs hun content zonder expliciete toestemming hebben gebruikt om modellen te trainen. Webdata werd gescrapet. Complete archieven werden ingeladen. Het argument: publieke data, fair use, innovatiebelang.
Nu een AI-bedrijf zelf stelt dat zijn modelkennis wordt “gestolen”, klinkt er online weinig sympathie.
De tegenvraag is hard en direct:
- Hebben AI-labs toestemming gevraagd aan elke auteur?
- Is scraping van webdata fundamenteel anders dan distillatie van modeloutput?
- Waarom is het gebruik van publieke content acceptabel, maar het hergebruiken van AI-output niet?
Dat is waar de “cry me a river”-reacties vandaan komen. Niet omdat modeldistillatie triviaal zou zijn, maar omdat de sector zelf gebouwd is op grootschalige dataverzameling.
Wat beweert Anthropic precies?
Anthropic publiceerde op 23 februari 2026 een verklaring waarin het spreekt van industrial-scale distillation attacks. Volgens het bedrijf:
- Werden meer dan 24.000 frauduleuze accounts aangemaakt
- Vonden ruim 16 miljoen interacties met Claude plaats
- Werden geautomatiseerde bulkinteracties ingezet
- Werden gebruiksvoorwaarden omzeild
- Werd systematisch modelkennis geëxtraheerd
De beschuldiging is dus niet: iemand heeft onze output gelezen.
De beschuldiging is: concurrenten hebben via nepaccounts en automatisering doelbewust Claude bevraagd om de output te gebruiken als trainingsmateriaal voor hun eigen modellen.
Dat is een andere orde van grootte.
Wat is modeldistillatie?
Modeldistillatie is een bekende techniek binnen machine learning. Een kleiner model wordt getraind op de output van een groter model. Het leert patronen uit de antwoorden van een krachtiger systeem.
In onderzoek is dat normaal. Het maakt modellen efficiënter, goedkoper en sneller inzetbaar.
In commerciële context wordt het gevoeliger.
Als je een concurrent systematisch bevraagt, diens output verzamelt en daarmee je eigen model verbetert, dan kom je in juridisch en strategisch grijs gebied terecht.
Anthropic stelt dat hier geen sprake was van normaal API-gebruik, maar van industriële extractie.
Is dit hetzelfde als scraping?
Nee – en dat is waar de nuance zit.
Er is een juridisch verschil tussen:
- Publieke webdata scrapen
- Contractueel beschermde API-output gebruiken om een concurrerend model te trainen
Trainingsdata bestaat uit originele werken waarop auteursrecht rust. Modeloutput is gegenereerde tekst. Vaak geen directe kopie van één specifieke bron.
Maar API-gebruik valt onder contractrecht. Als gebruiksvoorwaarden expliciet verbieden dat output wordt gebruikt om concurrerende modellen te trainen, en die voorwaarden worden omzeild via nepaccounts, dan is dat geen auteursrechtkwestie maar contractbreuk.
Dat maakt het juridisch zwaarder.
De morele discussie blijft echter ongemakkelijk.
Geopolitiek speelt mee
De betrokken bedrijven opereren vanuit China. Daarmee krijgt het dossier automatisch een geopolitieke lading.
De VS en China bevinden zich midden in een AI-wapenwedloop: halfgeleiders, compute, foundation models, exportbeperkingen.
In dat licht is dit niet alleen een IP-kwestie, maar ook een strategisch signaal.
Online klinkt al de suggestie dat Amerikaanse AI-bedrijven nu bescherming zoeken via overheid en regelgeving – nadat ze zelf jaren profiteerden van open internetdata.
Of dat frame klopt, is discutabel. Maar het sentiment is duidelijk.
Waarom dit toch geen simpele hypocrisie is
De vergelijking “jullie deden hetzelfde” is begrijpelijk, maar niet volledig symmetrisch.
Scraping van publieke webdata en het systematisch reverse engineeren van een commercieel model via contractbreuk zijn juridisch verschillende situaties.
Daarnaast is er een verschil in schaal en intentie. Als er daadwerkelijk 16 miljoen geautomatiseerde interacties zijn ingezet om modelgedrag te repliceren, dan spreken we niet over incidenteel gebruik, maar over strategische kennisextractie.
Dat is closer to competitive replication dan tot normaal API-gebruik.
Wat betekent dit voor Europa?
Voor Nederland en Europa is dit relevanter dan het lijkt.
- Europese startups draaien vaak op Amerikaanse foundation models
- Universiteiten experimenteren met modeldistillatie voor optimalisatie
- De AI Act stelt eisen aan transparantie en datagebruik
Als modeldistillatie juridisch wordt aangescherpt, kan dat gevolgen hebben voor:
- API-gebruik door startups
- Onderzoek naar kleinere, efficiëntere modellen
- Open source-ecosystemen
- Samenwerkingen tussen bedrijven en kennisinstellingen
Dit debat raakt dus direct aan innovatiebeleid en digitale autonomie.
De kernvraag
De echte vraag is niet of Anthropic gelijk heeft.
De echte vraag is: welke normen gelden in een industrie die zelf is gebouwd op massale dataverzameling?
De AI-sector zit in een fase waarin modelbouwers elkaar beginnen te bevechten. Niet mens versus machine, maar model versus model.
En zodra dat gebeurt, verschuift het debat van “data wil vrij zijn” naar “output moet beschermd worden”.
Dat voelt ongemakkelijk. Maar het onderliggende vraagstuk is complexer dan de oneliner “cry me a river” suggereert.
Wat hier zichtbaar wordt, is een machtsstrijd binnen de AI-sector zelf. En die zal waarschijnlijk leiden tot:
- Strengere contractvoorwaarden
- Technische detectie van distillatie
- Meer juridische procedures
- Mogelijk nieuwe regelgeving
Modeldistillatie staat vanaf nu nadrukkelijk op de internationale AI-agenda.
En dit keer is het niet de creatieve sector die klaagt, maar de modelbouwers zelf.