Hugging Face heeft een nieuw grootschalig taalmodel verwelkomd:
DeepSeek-V3.1-Base. Het model telt maar liefst 685 miljard parameters en is direct beschikbaar voor download. De release markeert een nieuwe mijlpaal in de ontwikkeling van open-source AI-modellen.
DeepSeek-V3.1-Base vanaf augustus 2025 op Hugging Face
DeepSeek-V3.1-Base staat dus op
Hugging Face. Het wordt aangeboden door het team van deepseek-ai, een onderzoeksorganisatie die zich richt op schaalbare Large Language Models (LLM’s) met een Mixture-of-Experts (MoE)-architectuur.
Hun nieuwste release bouwt voort op de eerdere DeepSeek-V3 Base-versie, maar voegt significante verbeteringen toe.
Wat is er nieuw in DeepSeek-V3.1?
De opvallendste wijziging in deze versie is de toevoeging van een Multi-Token Prediction (MTP)-module. Hierdoor stijgt het aantal parameters van 671 miljard naar 685 miljard, waarbij de extra 14 miljard specifiek voor deze nieuwe functionaliteit zijn gereserveerd.
MTP maakt het mogelijk dat het model meerdere tokens tegelijk voorspelt tijdens training. Dit versnelt het leerproces en verhoogt de efficiëntie, vooral bij lange contexten.
Ondersteuning voor moderne tensorformaten
Het model ondersteunt meerdere tensorprecisies, wat belangrijk is voor zowel training als inferentie op verschillende hardwareplatforms. Ondersteunde types zijn:
- BF16 (Bfloat16): Breed ondersteund op moderne GPU’s, efficiënt zonder grote nauwkeurigheidsverliezen.
- F8_E4M3 (8-bit floating point): Zeer geschikt voor inference met lage latency.
- F32 (32-bit float): Traditionele precisie voor maximale nauwkeurigheid.
Daarnaast wordt het model geleverd in het .safetensors-formaat, wat veiliger is dan traditionele PyTorch-bestanden en snel in te laden is.
Architectuur gebaseerd op Mixture-of-Experts
Net als zijn voorganger is DeepSeek-V3.1-Base gebaseerd op een Mixture-of-Experts (MoE)-architectuur. Hierbij worden niet alle parameters tegelijkertijd geactiveerd. In plaats daarvan worden bij elk token slechts een subset (bijvoorbeeld 37 miljard) van de totale 685 miljard parameters gebruikt. Dit maakt het model computationeel efficiënt en schaalbaar.
Belangrijke technieken binnen deze architectuur zijn:
- Multi-head Latent Attention (MLA): Voor efficiëntere contextverwerking.
- Load balancing zonder auxiliary loss: Voor betere verdeling van expert-activatie.
- MTP-training: Zoals hierboven toegelicht.
De pre-training is uitgevoerd op 14,8 biljoen tokens en gebruikte FP8 mixed precision, een nieuwe standaard voor schaalbare
LLM-training.
Contextgrootte en toepassingsgebied
Hoewel de officiële modelkaart nog ontbreekt, is het zeer waarschijnlijk dat de contextlengte 128.000 tokens bedraagt, net als bij DeepSeek-V3. Dit maakt het model geschikt voor complexe taken zoals codegeneratie, juridische documenten of academisch onderzoek over meerdere pagina’s.
De "Base" versie is bedoeld als vertrekpunt voor fine-tuning, bijvoorbeeld naar een chatmodel of domeinspecifieke variant. Onderzoekers kunnen hiermee biasdetectie doen, aanpassen voor minder censuur of het model inzetten als transparante basis voor verdere ontwikkeling.
Nog niet inzetbaar via inference-providers
Opvallend is dat het model nog niet beschikbaar is via inference-providers zoals BentoML of Hugging Face inference endpoints. Gebruikers moeten het lokaal draaien via aangepaste code. In combinatie met het grote aantal parameters vereist dit stevige hardware, bij voorkeur met ondersteuning voor BF16 of FP8-precision op moderne NVIDIA H100 of A100 GPU’s.