In de dynamische wereld van kunstmatige intelligentie hebben grote taalmodellen zoals GPT-4 en
Llama veel aandacht getrokken vanwege hun indrukwekkende vermogen om natuurlijke taal te verwerken en te genereren. Toch winnen Small Language Models (SLM's) aan populariteit vanwege hun unieke voordelen voor specifieke toepassingen.
AMD heeft onlangs zijn eerste SLM gelanceerd: de AMD-135M, uitgerust met speculatieve decodering.
AMD-135M en de ontwikkelingen
De AMD-135M is het eerste kleine taalmodel binnen de Llama-familie dat vanaf de basis is getraind op AMD Instinct™ MI250-accelerators. Het model is ontwikkeld met behulp van 670 miljard tokens en bestaat uit twee varianten: AMD-Llama-135M en AMD-Llama-135M-code.
- Pre-training: Het AMD-Llama-135M-model is in zes dagen vanaf nul getraind met 670 miljard tokens aan algemene data, gebruikmakend van vier MI250-nodes.
- Code-finetuning: De AMD-Llama-135M-code-variant is verder verfijnd met nog eens 20 miljard tokens aan code-data, wat vier dagen in beslag nam op dezelfde hardware.
Wat dit model bijzonder maakt, is dat de trainingscode, dataset en gewichten open-source zijn. Dit stelt ontwikkelaars in staat het model te reproduceren en bij te dragen aan de training van andere SLM's en LLM's. Dat meldt
AMD op haar website.
Optimalisatie met speculatieve decodering
Traditioneel gebruiken grote taalmodellen een autoregressieve benadering voor inferentie, waarbij per voorwaartse stap slechts één token wordt gegenereerd. Dit beperkt de efficiëntie en vertraagt de inferentiesnelheid. Speculatieve decodering biedt hiervoor een oplossing. Het principe is om een klein conceptmodel te gebruiken om een reeks kandidaat-tokens te genereren, die vervolgens door het grotere doelmodel worden geverifieerd.
Deze methode maakt het mogelijk om per stap meerdere tokens te genereren zonder in te leveren op prestaties, wat leidt tot significante snelheidsverbeteringen.
Versnelling van inferentieprestaties
Door AMD-Llama-135M-code te gebruiken als conceptmodel voor CodeLlama-7b, heeft AMD de inferentieprestaties getest met en zonder speculatieve decodering op zowel de MI250-accelerator voor datacenters als de Ryzen AI-processor voor AI-pc's. In de geteste configuraties werd een duidelijke versnelling waargenomen bij het gebruik van speculatieve decodering in vergelijking met traditionele methoden.