Google lanceert Ironwood: Zevende generatie TPU voor AI-inferentie

woensdag, 09 april 2025 om 17:39

Tijdens Google Cloud Next 25 heeft Google zijn nieuwste Tensor Processing Unit (TPU) onthuld: Ironwood. Deze zevende generatie TPU is specifiek ontworpen voor inferentie, het proces waarbij getrainde AI-modellen worden ingezet om voorspellingen te doen of antwoorden te genereren. Ironwood vertegenwoordigt een belangrijke stap in de ontwikkeling van AI-hardware, met aanzienlijke verbeteringen in prestaties en energie-efficiëntie.

Belangrijkste kenmerken van Ironwood:

Schaalbaarheid en prestaties: Ironwood kan worden geconfigureerd in clusters variërend van 256 tot 9.216 chips. Een volledige pod van 9.216 chips levert een rekenkracht van 42,5 exaflops, wat meer dan 24 keer de capaciteit is van 's werelds krachtigste supercomputer, El Capitan, die 1,7 exaflops biedt. Elke individuele chip heeft een piekprestatie van 4.614 teraflops.
Geheugen en bandbreedte: Elke Ironwood-chip beschikt over 192 GB High Bandwidth Memory (HBM) met een bandbreedte van 7,2 terabits per seconde, wat respectievelijk zes keer en 4,5 keer de capaciteit is van de vorige generatie, Trillium.
Energie-efficiëntie: Ironwood biedt een verdubbeling van de prestaties per watt in vergelijking met Trillium en is bijna 30 keer energiezuiniger dan de eerste Cloud TPU uit 2018.

Groeiende behoeftes

Ironwood is ontworpen om te voldoen aan de groeiende behoeften van geavanceerde AI-modellen, zoals Large Language Models (LLM's) en Mixture of Experts (MoE), die aanzienlijke rekenkracht en efficiënte geheugentoegang vereisen. De verbeterde Inter-Chip Interconnect (ICI) technologie zorgt voor snelle en efficiënte communicatie tussen chips, wat cruciaal is voor grootschalige AI-toepassingen.

Deze ontwikkeling onderstreept Google's inzet om de infrastructuur voor AI-toepassingen te verbeteren en biedt zowel interne teams als cloudklanten de mogelijkheid om geavanceerde AI-modellen efficiënter en op grotere schaal te implementeren.

Onderdeel van Google’s bredere AI-strategie

Ironwood maakt deel uit van de bredere Google Cloud AI Hypercomputer-architectuur, waarbij hardware en software nauw samenwerken om de zwaarste AI-werkbelastingen aan te kunnen. Dit platform is ontworpen om zowel training als inferentie van modellen op enorme schaal mogelijk te maken. Ironwood is volledig geïntegreerd met Google's Pathways-softwarestack, ontwikkeld door DeepMind, waarmee ontwikkelaars efficiënt kunnen rekenen over tienduizenden TPU's tegelijk.

Speciaal voor de “age of inference”

Volgens Google luidt Ironwood de zogenoemde “age of inference” in — een tijdperk waarin AI niet alleen reageert op gebruikersinvoer, maar zelf actief inzichten genereert en interpreteert. Denk aan autonome AI-agenten die proactief informatie verzamelen en conclusies trekken, in plaats van alleen data te presenteren. Ironwood is ontworpen om deze denkmodellen te ondersteunen, met lage latency, hoge doorvoer en krachtige synchronisatie over duizenden chips.

Toepassingen buiten de traditionele AI

Ironwood is niet alleen geschikt voor klassieke AI-modellen, maar ondersteunt ook bredere toepassingen. Dankzij de verbeterde SparseCore-accelerator kunnen ook ultra-grote embedded modellen voor aanbevelingssystemen, financiële simulaties en wetenschappelijke berekeningen versneld worden uitgevoerd.

Duurzaamheidsvoordelen en koeltechnologie

Ironwood maakt gebruik van geavanceerde vloeistofkoeling, wat bijdraagt aan de uitzonderlijke energie-efficiëntie. Dit is essentieel gezien de snel stijgende energievraag in datacenters wereldwijd. De combinatie van een hogere prestaties per watt en verbeterde thermische betrouwbaarheid maakt Ironwood bijzonder aantrekkelijk voor bedrijven die AI willen opschalen zonder hun ecologische voetafdruk drastisch te vergroten.

Beschikbaarheid en impact

Ironwood zal later in 2025 beschikbaar worden via Google Cloud. Volgens Google worden AI-modellen zoals Gemini 2.5 en het baanbrekende AlphaFold al op TPU's uitgevoerd, en met Ironwood verwacht het bedrijf dat de innovatiesnelheid binnen generatieve AI verder zal versnellen. Voor klanten betekent dit een kans om cutting-edge AI-oplossingen te ontwikkelen zonder zelf te investeren in complexe infrastructuur.