Google introduceert met VaultGemma een nieuwe grote taalmodel (LLM) die volledig is getraind met differential
privacy. Het model moet laten zien dat kunstmatige intelligentie niet alleen krachtig, maar ook fundamenteel privé kan zijn.
VaultGemma is daarmee een andere benadering dan de meeste huidige AI-modellen, die vaak worden bekritiseerd vanwege mogelijke datalekken en gebrek aan transparantie.
Wat is VaultGemma?
VaultGemma is een open model met 1 miljard parameters, ontwikkeld door Google Research in samenwerking met DeepMind. Het is
volgens de onderzoekers het grootste model dat ooit volledig vanaf nul is getraind met differential privacy. De modelgewichten zijn beschikbaar via Hugging Face en Kaggle, samen met een uitgebreid onderzoeksrapport.
Differential privacy werkt door willekeurige ruis toe te voegen aan de trainingsdata, zodat het model geen exacte informatie uit de dataset kan onthouden. Zo wordt de kans verkleind dat gevoelige gegevens, zoals persoonlijke informatie, terug te vinden zijn in de output van het model.
De uitdaging van differential privacy
Het trainen van een AI-model met privacybeperkingen kent duidelijke nadelen. Het toevoegen van ruis beïnvloedt de trainingsstabiliteit en verhoogt de benodigde rekenkracht en batchgrootte aanzienlijk. Om die uitdagingen beter te begrijpen, ontwikkelden de onderzoekers nieuwe “scaling laws”: wiskundige regels die beschrijven hoe prestaties veranderen bij verschillende instellingen voor modelgrootte, batchgrootte, datahoeveelheid en rekenbudget.
Een belangrijke conclusie is dat bij training met differential privacy kleinere modellen vaak beter presteren in combinatie met zeer grote batches, iets dat in traditionele AI-training niet gebruikelijk is.
Hoe presteert VaultGemma?
VaultGemma presteert duidelijk beter dan eerdere experimenten met private AI-modellen. Toch blijft er een prestatiekloof bestaan met niet-private modellen. Uit vergelijkingen blijkt dat VaultGemma vandaag ongeveer hetzelfde prestatieniveau haalt als niet-private modellen van vijf jaar geleden, zoals GPT-2. Daarmee toont het project zowel de vooruitgang als de beperkingen van privacyvriendelijke AI.
Wel heeft VaultGemma een formele privacygarantie: het model onthoudt geen enkele trainingszin letterlijk. Tests bevestigen dat het geen memorisatie vertoont, wat een belangrijke stap is richting betrouwbare en veilige toepassing van kunstmatige intelligentie.
Betekenis voor de toekomst
Met VaultGemma wil Google een basis leggen voor de volgende generatie AI-systemen, waarin veiligheid en privacy vanaf het ontwerp zijn ingebouwd. Hoewel de prestaties nog achterblijven bij de nieuwste commerciële
LLM’s, verwachten de onderzoekers dat verder onderzoek de kloof zal verkleinen.
VaultGemma laat zien dat er een alternatief pad bestaat in de ontwikkeling van AI: niet alleen groter en krachtiger, maar ook veiliger en meer gericht op bescherming van gebruikersdata.