Tencent tilt creatieve AI naar nieuw niveau met ArtifactsBench

Nieuws
door Thomas
donderdag, 10 juli 2025 om 9:14
ai robot china
Tencent heeft een nieuwe standaard gezet in de wereld van kunstmatige intelligentie. Het Chinese techbedrijf komt met een gloednieuwe benchmark, genaamd ArtifactsBench. Deze tool is speciaal ontwikkeld om creatieve AI modellen beter te beoordelen, en dat gaat een stuk verder dan alleen controleren of de gegenereerde code werkt.

Wat is ArtifactsBench?

Wat maakt ArtifactsBench zo bijzonder? Het kijkt niet alleen naar de technische kant van een AI opdracht, maar ook naar hoe goed de uitkomst eruitziet en aanvoelt. Oftewel, de gebruikservaring en visuele kwaliteit tellen nu ook mee. Geen rare knoppen meer op verkeerde plekken of kleuren die pijn doen aan je ogen. Met deze benchmark wil Tencent ervoor zorgen dat AI ook echt mooie en bruikbare dingen maakt.
AI modellen worden getest op maar liefst 1.800 verschillende creatieve opdrachten. Denk aan het bouwen van simpele webapplicaties, interactieve mini-games of visueel aantrekkelijke dashboards. Vervolgens controleert ArtifactsBench automatisch of de gegenereerde projecten goed functioneren én er aantrekkelijk uitzien. En dat gebeurt niet zomaar, een geavanceerde multimodale AI rechter (MLLM) beoordeelt elk project aan de hand van tien criteria. Daarbij wordt onder andere gekeken naar functionaliteit, gebruikerservaring en esthetiek.

Resultaten van ArtifactsBench opvallend goed

De resultaten zijn opvallend goed. De beoordelingen van de AI rechter komen in 94,4% van de gevallen overeen met wat menselijke beoordelaars vinden. Ter vergelijking: bij oudere benchmarks lag dat percentage op slechts 69,4%. Zelfs professionele ontwikkelaars zijn het in 90% van de gevallen eens met de scores die ArtifactsBench uitdeelt.
Nog een interessant detail. Algemene AI modellen, die niet specifiek zijn getraind op programmeren of visuele taken, presteren beter dan gespecialiseerde code- of visie modellen. Dat laat zien dat creativiteit en veelzijdigheid in AI belangrijker zijn dan alleen technische perfectie. Tencent hoopt dat ArtifactsBench een eerlijker en realistischer beeld geeft van wat AI echt kan. Want een slimme machine is leuk, maar een slimme en creatieve machine? Dat is pas echt toekomstmuziek.
Plaats reactie

Populair nieuws