Moonshot AI introduceert met
Kimi Linear een doorbraak in de wereld van grote taalmodellen. Het nieuwe lineaire attentiemodel levert betere prestaties dan conventionele full-attentionarchitecturen, terwijl het aanzienlijk sneller en efficiënter is. Dit markeert een grote stap in de richting van duurzame en schaalbare AI.
Kimi Linear overtreft full attention in snelheid én kwaliteit
Het team achter Kimi, bekend van de Kimi K2-modellen, heeft zijn nieuwste onderzoek gepubliceerd: Kimi Linear: An Expressive, Efficient Attention Architecture. Het model introduceert een hybride architectuur die niet alleen sneller werkt, maar ook beter presteert dan klassieke transformer-gebaseerde modellen met volledige aandacht.
De kern van de innovatie is Kimi Delta Attention (KDA), een nieuwe vorm van lineaire aandacht. Waar traditionele lineaire attentiemodellen vaak aan expressiviteit verloren, gebruikt KDA een fijner afgestelde gating-methode die per kanaal bepaalt welke informatie behouden of vergeten wordt. Dit resulteert in een efficiënter geheugenbeheer en een model dat beter begrijpt welke context belangrijk is.
Volgens de technische documentatie levert Kimi Linear tot 6 keer snellere decodering bij contexten van 1 miljoen tokens, terwijl het 75% minder geheugen gebruikt dan conventionele full-attentionmodellen. Bovendien presteert het beter op benchmarks als MMLU-Pro, RULER en GPQA.
Hybride aanpak: 3 lagen lineaire aandacht, 1 laag full attention
De architectuur van Kimi Linear is hybride opgebouwd: drie lagen KDA worden afgewisseld met één laag klassieke Multi-Head Latent Attention (MLA). Deze 3:1-verhouding biedt volgens de onderzoekers het beste evenwicht tussen snelheid, geheugenverbruik en nauwkeurigheid.
In tegenstelling tot veel eerdere hybride modellen gebruikt Kimi Linear geen positionele encodering (NoPE) in zijn full-attentionlagen. Hierdoor blijft de positionele informatie dynamisch in de KDA-lagen verwerkt, wat de prestaties bij langere contexten verbetert. Dit ontwerp maakt het model bovendien geschikt voor toepassingen met extreem lange invoer, zoals code-analyse en tekstuele redenering over meerdere documenten.
Betere prestaties bij lagere rekeneisen
Uit uitgebreide tests blijkt dat Kimi Linear in vrijwel alle categorieën beter presteert dan zijn voorgangers. Bij identieke trainingsvoorwaarden (1,4 biljoen tokens) verslaat het model zowel de baseline met volledige aandacht als de hybride GDN-H-architectuur:
- MMLU-Pro (4K context): Kimi Linear scoort 51,0 tegenover 47,9 bij GDN-H.
- RULER (128K context): 84,3 tegenover 80,5 bij GDN-H.
- Chinese benchmarks (CEval, CMMLU): hoogste scores onder alle geteste modellen.
- Decoderingstijd: tot 6,3× sneller dan volledige aandacht bij 1M tokens.
Deze resultaten tonen aan dat Kimi Linear niet alleen efficiënter traint, maar ook beter generaliseert in lange contexten en redeneringstaken.
Open source en compatibel met bestaande frameworks
Moonshot AI heeft de Kimi Linear-code en modellen volledig open source beschikbaar gemaakt via GitHub en Hugging Face. De KDA-kernel is geïntegreerd met vLLM, waardoor de architectuur direct bruikbaar is binnen bestaande inferentiesystemen. Onderzoekers kunnen de pre-trained en instructie-getrainde versies downloaden en inzetten zonder aanpassingen aan hun infrastructuur.
Links:
Belang voor de toekomst van AI
De introductie van Kimi Linear kan een structurele verandering betekenen in hoe grote taalmodellen worden ontworpen. Terwijl de AI-industrie worstelt met stijgende kosten en hardwarelimieten, laat deze architectuur zien dat lineaire aandacht niet langer een compromis is, maar een volwaardig alternatief voor traditionele transformers.
Door superieure prestaties te combineren met hogere efficiëntie, opent Kimi Linear de deur naar snellere, goedkopere en energiezuinigere LLM’s. De open-sourcebenadering van Moonshot AI versterkt bovendien de samenwerking binnen de AI-gemeenschap en versnelt de ontwikkeling van schaalbare modellen.