Onderzoekers van Cornell University presenteren op 11 december 2025 een nieuw vision-language model dat de gevestigde orde uitdaagt. Het model, genaamd VL-JEPA, laat zien dat kunstmatige intelligentie niet afhankelijk hoeft te zijn van generatieve modellen om sterke prestaties te leveren. AI-wetenschapper Yann LeCun reageert enthousiast en spreekt van “eindelijk een echt alternatief voor generatieve modellen”.
VL-JEPA staat voor Vision-Language Joint Embedding Predictive Architecture. In plaats van tekst woord voor woord te genereren, voorspelt het model betekenisvolle representaties in een gedeelde latente ruimte voor beeld en taal. Die keuze heeft grote gevolgen voor snelheid, efficiëntie en schaalbaarheid.
Wat is VL-JEPA en waarom is dit anders?
De meeste moderne vision-language modellen werken autoregressief. Ze genereren tokens één voor één in de dataruimte. Dat maakt deze systemen zwaar, traag en kostbaar, vooral bij video en real-time toepassingen. VL-JEPA doorbreekt dit patroon volledig.
Het model leert niet om tekst te produceren, maar om semantische embeddings te voorspellen. Die embeddings bevatten de kern van de betekenis, zonder afhankelijk te zijn van exacte woordvolgordes of formuleringen. Pas wanneer tekstoutput nodig is, activeert VL-JEPA een lichte decoder om de embeddings om te zetten naar natuurlijke taal.
Volgens
de onderzoekers zorgt deze aanpak ervoor dat het model zich richt op taakrelevante informatie in plaats van oppervlakkige taalstructuren.
Sterkere prestaties met minder parameters
Een van de meest opvallende resultaten is de efficiëntie. VL-JEPA gebruikt ongeveer 50 procent minder trainbare parameters dan vergelijkbare vision-language modellen die dezelfde trainingsdata en visuele encoder gebruiken. Ondanks die reductie behaalt het model betere prestaties in gecontroleerde experimenten.
De auteurs tonen aan dat trainen in de embeddingruimte effectiever is dan trainen op tokenvoorspelling. Hierdoor haalt VL-JEPA hogere scores bij algemene vision-language taken, terwijl de rekenkosten lager blijven.
Grote winst bij video en real-time toepassingen
VL-JEPA is specifiek ontworpen met video in gedachten. Bij online videostreaming introduceert het model selectieve decoding. Dat betekent dat het systeem alleen decodeert wanneer dat echt nodig is. In de experimenten reduceert deze techniek het aantal decodeeracties met een factor 2,85, terwijl de prestaties vrijwel gelijk blijven.
Deze eigenschap maakt VL-JEPA bijzonder geschikt voor toepassingen zoals camerabewaking, autonome systemen, robots en andere scenario’s waarin lage latency cruciaal is.
Sterk op classificatie, retrieval en visuele vragen
De onderzoekers testen VL-JEPA op een breed scala aan benchmarks. Het model ondersteunt open-vocabulary classificatie, tekst-naar-video retrieval en visuele vraag-antwoord systemen zonder architecturale aanpassingen.
Op zestien datasets voor video-classificatie en video-retrieval presteert VL-JEPA gemiddeld beter dan bekende modellen zoals CLIP, SigLIP2 en Perception Encoder. Bij visuele vraag-antwoord taken zoals GQA, TallyQA, POPE en POPEv2 behaalt het model vergelijkbare resultaten als generatieve systemen zoals InstructBLIP en QwenVL.
Opvallend is dat VL-JEPA deze prestaties levert met slechts 1,6 miljard parameters. Dat is relatief compact binnen dit onderzoeksveld.
Waarom Yann LeCun dit onderzoek belangrijk vindt
Dat Yann LeCun het
onderzoek expliciet onder de aandacht brengt, is veelzeggend. LeCun pleit al jaren voor Joint Embedding Predictive Architectures als fundament voor intelligente systemen. Volgens hem moeten AI-modellen leren door voorspellingen te doen in abstracte representatieruimtes, niet door eindeloos tekst te genereren.
VL-JEPA geldt nu als het sterkste bewijs dat deze visie ook in de praktijk werkt. Het onderzoek is uitgevoerd door een team van Cornell University, onder leiding van Delong Chen en Pascale Fung, met LeCun als mede-auteur. De publicatie verschijnt op arXiv en richt zich op computer vision en pattern recognition.
Wat betekent dit voor de toekomst van AI
VL-JEPA laat zien dat vooruitgang in AI niet automatisch betekent dat modellen groter en duurder moeten worden. Door afscheid te nemen van token-voor-token generatie ontstaat ruimte voor snellere, zuinigere en beter schaalbare systemen.
Voor de AI-sector is dit een belangrijk signaal. Als JEPA-achtige architecturen zich verder ontwikkelen, kunnen ze een serieus alternatief vormen voor generatieve modellen, vooral in toepassingen waar snelheid, efficiëntie en betrouwbaarheid belangrijker zijn dan creatieve tekstproductie.