Onderzoekers publiceren extreem goedkoop AI model

maandag, 13 januari 2025 om 12:00

onderzoek naar openai microsoft en nvidia

Sinds de publieke lancering van OpenAI’s ChatGPT model, zien we dat de ontwikkelingen snel gaan. Vrijwel elke maand is er weer een nieuwe update of weer een ander kunstmatige intelligentie (AI) model die sneller, goedkoper en toegankelijker is. Het onderzoeksteam NovaSky, verbonden aan de Sky Computing Lab van UC Berkeley, doet hier aan mee met de lancering van het veelbelovende Sky-T1-32B-Preview.

Dit redeneringsmodel, met een erg ingewikkelde naam, is volledig open-source. Dit betekent dat zowel de gebruikte dataset als de trainingscode publiekelijk beschikbaar is. Wat dit model extra bijzonder maakt, is dat het voor minder dan $450 getraind kon worden. Daarmee is het een fractie van de miljoenen dollars die doorgaans nodig zijn voor vergelijkbare modellen.

Sky-T1 laat zien hoe de kosten voor AI training drastisch verlaagd kunnen worden door gebruik te maken van synthetische trainingsdata. Deze data wordt gegenereerd door andere AI modellen, zoals Alibaba’s QwQ-32B-Preview en OpenAI’s GPT-4o-mini. Dankzij deze aanpak wist het NovaSky team de trainingstijd te beperken tot slechts 19 uur, met behulp van een set van acht Nvidia H100 GPU’s.

Redenatie

Een belangrijk voordeel van redeneringsmodellen zoals Sky-T1 is dat ze zichzelf kunnen fact-checken, wat ze betrouwbaarder maakt bij het oplossen van complexe vraagstukken, met name in wetenschap, wiskunde en natuurkunde. Waar traditionele AI modellen vaak geneigd zijn om incorrecte of inconsistente informatie te leveren, onderscheiden redeneringsmodellen zich doordat ze meerdere stappen doorlopen om hun oplossingen te verifiëren voordat ze een antwoord presenteren. In zekere zin ‘denken’ deze modellen eerst na voordat ze een antwoord geven, vandaar de naam ‘redeneringsmodellen’.

Opvallende prestaties

Het Sky-T1 model heeft inmiddels indrukwekkende resultaten behaald op verschillende benchmarks. Zo presteert het beter dan een vroege versie van OpenAI’s o1-model op MATH500, een dataset met complexe wiskundige problemen. Ook bij LiveCodeBench, een test voor programmeeroplossingen, scoort Sky-T1 beter. Toch is er nog ruimte voor verbetering: op GPQA-Diamond, een dataset met vragen over natuurkunde, biologie en scheikunde, presteert het model iets minder goed.