Wikimedia kondigde aan dat Wikidata, de database achter veel
Wikipedia-informatie, een belangrijke aanpassing krijgt zodat AI-diensten de data makkelijker kunnen gebruiken. In plaats van alleen ruwe structuren, worden de miljoenen items nu omgezet naar vectorformaten – een vorm waarbij computers betekenis en relaties kunnen “voelen” en niet alleen verwerken als losse feiten, aldus
The Verge op 1 oktober.
Met de vectorisatie ontstaat een systeem waarin bijvoorbeeld “Douglas Adams” niet alleen een naam is, maar ook verbonden wordt met “mensheid”, zijn boeken, andere auteurs en onderwerpen die vaak samen voorkomen. In die grafen zie je relaties en context, niet alleen losse gegevens.
Hoewel de gebruikersinterface van Wikidata zichtbaar onveranderd blijft, verandert de achterkant grondig. AI-ontwikkelaars kunnen eenvoudiger de databanken aanspreken en integreren in applicaties zoals chatbots of vraag-antwoord systemen.
Waarom deze verandering belangrijk is
Eén van de doelen is om kleinere AI-teams een kans te geven. Tot nu toe moest je als ontwikkelaar zelf een complexe transformatie uitvoeren om Wikidata bruikbaar te maken voor AI-modellen. Grote techbedrijven hadden daarvoor de middelen; kleinere partijen meestal niet. Met deze vectorisatie wordt de drempel lager.
Daarnaast kan AI hoorzij niches of onderwerpen versterken die online minder besproken worden. Omdat Wikidata een breed en gevarieerd kennisportaal is, kan een AI ook minder “populaire” thema’s meenemen.
De bewerking is gebaseerd op gegevens tot 18 september 2024. Nieuwe toevoegingen worden nog niet automatisch meegenomen; het team verzamelt feedback om toekomstige updates te plannen.
Technische opzet en partners
Wikimedia Deutschland leidde het project samen met partijen als Jina AI en DataStax. Jina leverde modellen om de data om te zetten in vectorrepresentaties, en DataStax biedt infrastructuur om deze vectorbanken op te slaan.
Deze aanpak is geen totaal nieuw idee: in 2024 was al een project gestart dat Wikidata toegankelijker wilde maken voor AI-toepassingen, door data om te zetten naar formaat dat “semantische zoekopdrachten” mogelijk maakt.
Mogelijke uitdagingen en vragen
Een uitdaging is het bijhouden van actualiteit: wijzigingen, nieuwe items of correcties in Wikidata na september 2024 zijn nog niet inbegrepen in de vectorversie. Hoe vaak de vectordatabase wordt bijgewerkt, is nog onduidelijk.
Ook moeten algoritmen de nuance en betrouwbaarheid van gegevens respecteren: niet alle beweringen in Wikidata zijn even stevig onderbouwd. Een AI-model dat leert van vectorrelaties moet toch kritisch omgaan met inconsistenties of onbetrouwbare items.
Verder is er het vraagstuk van verantwoordelijkheid: wie houdt toezicht op hoe AI-systemen deze vectordata gebruiken? Bij controversiële onderwerpen kan interpretatie leiden tot verkeerde voorstellen.