De Wikimedia Foundation, de organisatie achter
Wikipedia, heeft nieuwe overeenkomsten gesloten met Microsoft, Meta en Perplexity over hoe data van
Wikipedia gebruikt mag worden om kunstmatige intelligentie te trainen. Deze afspraken gaan over de voorwaarden waaronder AI-modellen teksten en informatie van Wikipedia mogen verwerken zodat zij de inhoud kunnen begrijpen en als basis kunnen gebruiken voor antwoorden. De veranderingen zijn een reactie op vragen over auteursrechten, controle over data-gebruik en de rol van publieke informatiebronnen in de ontwikkeling van AI-systemen. Meer details hierover staan in het
verslag van The Verge.
Waarom deze afspraken belangrijk zijn
Wikipedia is een van de grootste en meest geraadpleegde vrije informatiebronnen op het internet. Duizenden vrijwilligers schrijven en bewerken de artikelen, en die inhoud wordt door miljoenen mensen wereldwijd gebruikt voor onderzoek, studie of het vinden van feiten. Omdat Wikipedia-artikelen vrij toegankelijk zijn en onder een vrije licentie vallen, hebben veel technologiebedrijven ze gebruikt om kunstmatige intelligentie te trainen. Dit betekent dat de tekst en structuur van artikelen worden verwerkt om AI-modellen te leren hoe taal en feiten werken.
De Wikimedia Foundation was hier lang vrij terughoudend in. Vrije licenties betekenen dat informatie gedeeld mag worden, maar niet automatisch dat derden alle toepassingen zonder overleg kunnen gebruiken. De nieuwe afspraken met Microsoft, Meta en Perplexity zijn bedoeld om duidelijk vast te leggen hoe data mag worden gebruikt, wat de grenzen zijn en welke rechten
Wikipedia als databron heeft.
Wat de overeenkomsten regelen
De overeenkomsten leggen vast dat de betrokken bedrijven
Wikipedia niet zomaar mogen gebruiken zonder zich te houden aan bepaalde regels. Die regels hebben te maken met transparantie over hoe de data wordt gebruikt en welke informatie precies voor AI-training wordt ingezet. Bedrijven moeten aangeven welke delen van Wikipedia-content zij gebruiken en hoe zij die verwerken in hun systemen.
Daarnaast is belangrijk dat de Wikimedia Foundation meer zeggenschap krijgt over wat er met de data gebeurt. In het verleden werd
Wikipedia-inhoud openlijk door AI-ontwikkelaars gebruikt zonder dat de databasebeheerder daar expliciet bij betrokken was. Met de nieuwe afspraken ontstaat een vorm van overleg waarin Wikimedia kan aangeven wat voor hen acceptabel is en wat niet, en waarin zij een rol hebben in hoe de samenwerking plaatsvindt.
Historische context
De discussie over het gebruik van
Wikipedia-data voor AI-training speelt al enkele jaren. AI-bedrijven willen grote hoeveelheden tekst en voorbeelden om hun modellen te laten leren hoe taal werkt. Wikipedia is daarbij aantrekkelijk omdat de artikelen goed gestructureerd zijn, veel onderwerpen behandelen en vrij beschikbaar zijn onder licenties die hergebruik toestaan.
Tegelijkertijd werd de openheid van
Wikipedia door sommigen gezien als een soort stille toestemming voor gebruik zonder veel overleg. Nu deze nieuwe afspraken er zijn, verandert dat beeld: bedrijven moeten explicieter zijn over hun gebruik en moeten zich houden aan de voorwaarden die Wikimedia stelt.