Apple en Nvidia gebruikten massaal YouTube video's zonder toestemming voor AI training

woensdag, 17 juli 2024 om 12:00

bedrijven stappen over naar retrieval augmented generation om ai te trainen

Uit een recent onderzoek van onderzoeksplatform Proof News heeft aan het licht gebracht dat technologiebedrijven zoals Anthropic, Apple, Salesforce en het snelgroeiende bedrijf Nvidia ondertitels van 173.536 YouTube video's hebben gebruikt voor het trainen van hun kunstmatige intelligentie (AI) modellen. De gebruikte video's zijn afkomstig van meer dan 48.000 kanalen, waaronder educatieve platforms zoals Khan Academy, MIT en Harvard, evenals populaire shows en video's van bekende YouTube sterren.

Gebrek aan toestemming

AI bedrijven houden vaak hun databronnen geheim. Het onderzoek van Proof News toont echter aan dat deze bedrijven zonder toestemming materiaal hebben verzameld van YouTube. Het is in strijd met de regels van YouTube, die het verzamelen van materialen zonder toestemming verbiedt.

Veel contentmakers waren zich niet bewust van het feit dat hun video’s werden gebruikt om AI modellen te trainen. David Pakman, YouTuber en host van The David Pakman Show, ontdekte dat bijna 160 van zijn video's waren gebruikt. Pakman en ook andere creators eisen compensatie, omdat hun werk en inkomsten op het spel staan. Ze benadrukken dat er overeenkomsten moeten worden gesloten om gebruik van hun werk te reguleren en te vergoeden.

Contentmakers vrezen voor hun toekomst. AI gegenereerde inhoud kan hun werk dupliceren of vervangen zonder compensatie of toestemming. Er is daarom een dringende behoefte aan duidelijke regelgeving en compensatiemechanismen vanuit de industrie om de rechten van content creators te beschermen en een eerlijke behandeling te waarborgen.

Juridische en ethische complicaties

Er zijn lopende juridische geschillen over auteursrechten en compensatie. Bedrijven zoals Meta en OpenAI betogen dat hun gebruik onder "fair use" valt. De uitkomsten van deze zaken zijn nog onzeker, maar de ethische zorgen blijven groot. CEO's zoals Dave Wiskus van streamingdienst Nebula bekritiseren ook het ongevraagd gebruik van contentmakers hun werk als respectloos en potentieel schadelijk.

De dataset waarin de verzamelde YouTube ondertitels worden opgeslagen maakt deel uit van een bredere dataset, dat "the Pile" wordt genoemd, en is publiek toegankelijk. Het wordt gebruikt door zowel academici als technologiebedrijven. De dataset omvat naast YouTube