Nu steeds meer bedrijven AI-modellen trainen en inzetten, groeit ook de complexiteit van de onderliggende infrastructuur razendsnel.
GPU-clusters, cloudomgevingen en AI-workflows moeten niet alleen snel kunnen opschalen, maar ook beheersbaar, veilig en betaalbaar blijven. Volgens het infrastructuurbedrijf
Quali ligt daar een van de grootste uitdagingen van de huidige AI-golf: organisaties investeren massaal in rekenkracht, maar missen vaak de systemen om die infrastructuur efficiënt te orkestreren.
Quali ontwikkelt software die bedrijven helpt hun AI-infrastructuur te beheren en automatiseren, van GPU-provisioning tot volledige AI-workflows. Het bedrijf positioneert zijn platform als een oplossing voor zogenoemde “AI-ready infrastructure”: een infrastructuurlaag die realtime inzicht biedt in kosten, gebruik en veranderingen, terwijl governance en beleidsregels automatisch worden afgedwongen. Volgens CEO Lior Koriat is dat noodzakelijk nu AI-systemen steeds vaker zelf infrastructuuracties kunnen initiëren en organisaties worstelen met groeiende cloudkosten en ongecontroleerde AI-experimenten.
In gesprek met aiwereld.nl legt Koriat uit waarom traditionele infrastructuurautomatisering niet langer volstaat, hoe intent-gedreven infrastructuur werkt en waarom de grootste bottleneck voor AI-projecten vaak niet technologie is, maar complexiteit.
1. We horen veel over “AI-ready infrastructure”. Wat betekent dat in de praktijk voor grote ondernemingen die GPU-intensieve workloads draaien?
Koriat: "AI-ready infrastructuur gaat veel verder dan alleen het beschikbaar stellen van GPU’s. In praktische enterprise-termen verwijst het naar het vermogen om infrastructuur te orkestreren rond de specifieke operationele eisen van AI, van GPU-provisioning tot volledige AI-workflows, terwijl governance, zichtbaarheid en kostencontrole behouden blijven naarmate systemen opschalen.
Quali definieert AI-ready infrastructuur als een operationeel model dat realtime inzicht biedt in kosten, drift, benutting en wijzigingsactiviteit, terwijl het policy-as-code handhaving mogelijk maakt, traceerbaar en omkeerbaar wijzigingsbeheer ondersteunt en self-service op schaal mogelijk maakt. Het concept omvat de volledige AI-levenscyclus en bestrijkt daarmee effectief alles van
GPU’s tot workflows.
Voor ondernemingen die GPU-intensieve workloads draaien, hangt AI-gereedheid af van drie onderling verbonden capaciteiten. De eerste is het vermogen om AI-infrastructuur snel te implementeren zonder herhaaldelijke handmatige herconfiguratie. Intent-gedreven orkestratie combineert AI-gestuurde interpretatie, geautomatiseerde provisioning van omgevingen en continue optimalisatie om implementaties te versnellen, terwijl governance behouden blijft over hybride omgevingen.
De tweede is het behandelen van GPU-workloads als dynamische, door beleid aangestuurde omgevingen in plaats van statische clusters die permanent actief blijven. Allocatie wordt continu geoptimaliseerd over trainings-, inferentie- en retrainingsfasen om de benutting te verbeteren en kosten te verlagen.
De derde is het afdwingen van operationele discipline om ongecontroleerde uitgaven en onderbenutting te voorkomen. Geautomatiseerde governance, intelligente consumptie-policies en realtime optimalisatie van workloads zorgen ervoor dat GPU’s alleen draaien wanneer ze meetbare waarde leveren.
In operationele termen betekent AI-ready infrastructuur: gecontroleerde self-service toegang tot GPU-stacks, lifecycle-managementcontroles, afdwingbare provisioning-policies, transparant inzicht in kosten en continue optimalisatie afgestemd op de eisen van workloads."
2. Je beschrijft de aanpak van Quali als “intent-driven infrastructure”. Hoe verschilt dat fundamenteel van traditionele automatisering of Infrastructure-as-Code?
Koriat: "Infrastructure-as-Code blijft een fundamenteel onderdeel, maar volgens Quali is het niet langer voldoende in een steeds meer door agents aangestuurd technologisch landschap, waarin AI-systemen zelf infrastructuuracties kunnen initiëren.
De verschuiving gaat van infrastructuur als code naar infrastructuur als intentie. In dit model blijven tools zoals Terraform fungeren als uitvoeringsmotoren, terwijl een hoger controle-niveau bepaalt wat moet worden uitgerold, wanneer dat moet gebeuren en onder welke governance-beperkingen.
Het verschil zit in abstractie en responsiviteit. Intentie opereert op een hoger niveau dan ruwe scripts. Gebruikers kunnen prompts in natuurlijke taal indienen die worden vertaald naar direct uitvoerbare, beleidsconforme blauwdrukken, terwijl beheerders controle behouden over welke resources zijn toegestaan.
Prompts worden omgezet in environment-as-code-artefacten die op aanvraag kunnen worden gelanceerd binnen vooraf gedefinieerde kaders. Zo kan een data scientist bijvoorbeeld een GPU-trainingsomgeving aanvragen via een prompt in natuurlijke taal of een catalogusvermelding, waarna het platform dit verzoek vertaalt naar een beleidsconforme infrastructuur-blueprint.
Tegelijkertijd werkt het systeem event-gedreven en contextbewust. In plaats van uitsluitend te vertrouwen op handmatige pipeline-executies reageert het op triggers zoals beleidschendingen, prestatie-signalen en workflow-events, waardoor infrastructuur zich dynamisch kan aanpassen.
Binnen dit raamwerk wordt Infrastructure-as-Code dus niet vervangen. Het wordt een modulaire laag binnen een governance-gestuurde control plane die intenties interpreteert, orkestratie over tools en providers uitvoert en de infrastructuurstatus continu optimaliseert."
3. Veel ondernemingen worstelen met cloudsprawl en AI-experimenten buiten governance-kaders. Hoe herstellen intent-gebaseerde systemen controle zonder innovatie te vertragen?
Koriat: "Quali benadert deze uitdaging door governance direct in het proces van omgevingscreatie en lancering te integreren, in plaats van het te behandelen als een auditfunctie achteraf. Door governance eerder in de levenscyclus te plaatsen, kunnen organisaties controle behouden zonder experimenten te beperken.
Centraal in dit model staan vooraf goedgekeurde, policy-ingebedde blauwdrukken. DevOps- en IT-teams definiëren gestandaardiseerde omgevingen met governance-regels, budgetparameters en toegangscontroles. Deze samengestelde templates stellen gebruikers in staat om omgevingen zelfstandig te creëren, bij te werken, te gebruiken en af te breken, terwijl ze binnen vastgestelde kaders blijven.
Omdat het platform het aanmaken van resources initieert, kan het compliance afdwingen op het moment van lancering door deployments te weigeren die het beleid schenden. Niet-conforme configuraties moeten eerst worden aangepast voordat ze actief kunnen worden.
Beleidsafdwinging wordt ondersteund door policy-as-code-mechanismen zoals Open Policy Agent, waardoor richtlijnen voor toegang, kosten en gebruik automatisch kunnen worden geëvalueerd tijdens provisioning.
Veilige credential-afhandeling voorkomt sprawl en maakt tegelijkertijd veilige self-service mogelijk. Kostenbeheer wordt eveneens geoperationaliseerd via automatische shutdown-policies, gebruiksgebaseerde triggers en afdwingbare bestedingslimieten. Governance fungeert hierdoor niet langer alleen als rapportage, maar als een actief controlemechanisme.
Innovatie blijft mogelijk dankzij gecontroleerde self-service, terwijl handhaving wordt ingebouwd in templates, rolgebaseerde toegangscontrole en geautomatiseerd lifecycle-management. Teams kunnen snel bewegen binnen duidelijk gedefinieerde operationele grenzen."
4. Waar zie je vandaag de grootste operationele bottleneck wanneer organisaties AI-initiatieven opschalen, kosten, governance, security of complexiteit?
Koriat: "De belangrijkste bottleneck is meestal structurele complexiteit, waarbij kosten vaak het meest zichtbare symptoom zijn, vooral in GPU-intensieve omgevingen.
Naarmate AI-programma’s opschalen, groeit de complexiteit van infrastructuur vaak sneller dan handmatige processen kunnen beheren. Dat kan leiden tot vastgelopen experimenten, ongebruikte of ontoegankelijke GPU’s, beperkte kosteninzichten en lange provisioningcycli die modeliteratie vertragen.
Legacy-tools en gescheiden workflows verergeren dit probleem en vergroten governance- en security-risico’s wanneer autonomie binnen teams toeneemt.
Ongecontroleerde GPU-uitgaven en energie-inefficiëntie zijn vaak downstream-gevolgen van onbeheerde complexiteit, bijvoorbeeld door inactieve trainingsclusters, dubbele experimenten of omgevingen die actief blijven lang nadat workloads zijn afgerond.
In deze context zijn kosten, governance en security niet afzonderlijke problemen maar onderling verbonden uitdagingen. Een gecentraliseerd control-plane-model kan dit aanpakken door orkestratie, governance en optimalisatie samen te brengen in een continu geautomatiseerd framework in plaats van te vertrouwen op handmatige ticket-processen."
5. Nu de vraag naar GPU’s wereldwijd explodeert, hoe moeten ondernemingen nadenken over infrastructuureigenaarschap: gecentraliseerde platformteams of federated AI-teams?
Koriat: "Quali ondersteunt een model dat gecentraliseerde guardrails combineert met gedecentraliseerde uitvoering.
In deze structuur beheert een centraal platformteam het governance-framework, herbruikbare blauwdrukken, catalogi en kostenlimieten. Federated AI- en data-science-teams gebruiken deze omgevingen vervolgens via gecontroleerde self-service.
Het platform creëert een duidelijke scheiding tussen degenen die omgevingen definiëren en orkestreren en degenen die ze implementeren en gebruiken. Controles zoals maximale duur, tagging-vereisten en kostenlimieten worden bij lancering afgedwongen.
Deze aanpak stelt AI-teams in staat om snel te itereren zonder infrastructuurstandaarden telkens opnieuw te moeten opzetten, terwijl sprawl, inconsistentie en onbeheerde GPU-uitgaven worden voorkomen."
De onderstaande technische vragen zijn beantwoord door David Ben-Shabat, vice-president Research & Development.
6. Torque is gepositioneerd als een autonoom infrastructuurplatform. Wat betekent “autonoom” vandaag realistisch gezien en waar blijft menselijke controle cruciaal?
Ben-Shabat: "In praktische termen verwijst autonomie naar het vermogen van het platform om routinematige operationele beslissingen te verplaatsen van handmatige processen naar door AI ondersteunde detect–decide–act-loops die binnen vastgestelde governance-policies opereren.
Het systeem monitort continu de status van infrastructuur, detecteert drift, beleidschendingen, inactieve resources of veranderingen in workloadfasen, bepaalt vooraf goedgekeurde reacties en voert corrigerende acties automatisch uit.
Dergelijke acties kunnen onder andere zijn: het weigeren van niet-conforme deployments, het herverdelen van GPU-resources, het aanpassen van infrastructuurcapaciteit of het beëindigen van inactieve omgevingen.
Autonomie verwijst hier echter naar begrensde automatisering binnen vooraf gedefinieerde governance-kaders. Teams blijven verantwoordelijk voor het opstellen van policies, het schrijven van goedgekeurde blauwdrukken, het bepalen van budgetlimieten en het goedkeuren van uitzonderlijke of risicovolle wijzigingen.
Menselijke controle bepaalt intentie en governance-parameters, terwijl het systeem uitvoering en optimalisatie beheert."
7. Hoe passen jullie AI of agentic AI toe binnen infrastructuurbeheer zelf? Gaan we richting self-healing en self-optimizing omgevingen?
Ben-Shabat: "Quali past agentic AI-principes toe binnen infrastructuurontwerp, betrouwbaarheid en kostenoptimalisatie.
Het platform monitort continu de status van resources en ondersteunt automatische herstelacties bij veelvoorkomende infrastructuurproblemen. Bij complexere incidenten helpen AI-gestuurde inzichten bij het identificeren van oorzaken en het versnellen van drift-herstel.
Kostenoptimalisatie gebeurt via continue kostenberekening, het weigeren van deployments die beleidslimieten overschrijden, detectie van inactieve resources en automatische beëindiging voordat verspilling ontstaat.
GPU-omgevingen worden dynamisch geprovisioned en geschaald over trainings- en inferentieworkloads, waarbij realtime prestatie- en benuttingsdata worden gebruikt om de juiste infrastructuurgrootte te bepalen.
Deze mogelijkheden weerspiegelen een bredere verschuiving naar self-healing en self-optimizing omgevingen, ondersteund door continue feedbackloops en ingebouwde beleidskaders."
8. Intent-gebaseerde systemen vereisen sterke beleidsafdwinging. Hoe garanderen jullie governance terwijl dynamische AI-workloads mogelijk blijven?
Ben-Shabat: "Governance is te realiseren via een geïntegreerde combinatie van policy-as-code-handhaving, gestandaardiseerde blauwdrukken en lifecycle-controle.
Beleidsregels rond toegang, kosten en gebruik worden direct geïntegreerd in provisioning-workflows en geëvalueerd voordat infrastructuur wordt uitgerold. Infrastructuur wordt samengesteld in herbruikbare, beleidsconforme blauwdrukken die eerst governance-evaluatie moeten doorstaan.
Omdat het platform de infrastructuurcreatie initieert, kan het vooraf de verwachte kosten berekenen, realtime limieten afdwingen en automatische beëindiging uitvoeren op basis van tijds- of gebruiksvoorwaarden.
Dynamische workloads blijven mogelijk, maar alleen binnen gecodeerde beleidsgrenzen. Geautomatiseerde handhaving vervangt handmatige reviewprocessen terwijl compliance behouden blijft."
9. GPU-clusters en AI-pipelines veroorzaken onvoorspelbare pieken in gebruik. Hoe gaat de architectuur van Quali om met elasticiteit zonder onbeheersbare kosten te creëren?
Ben-Shabat: "Elasticiteit is te beheren als zowel workload-bewust als beleidsbeperkt. GPU-allocatie is continu te optimaliseren over verschillende workloadfasen, waarbij resource-grootte wordt aangepast voor training, inferentie en retraining.
Realtime monitoring maakt contextbewuste prioritering en herallocatie mogelijk wanneer de vraag fluctueert.
Aan de kostenkant worden implementatiekosten vooraf berekend, bieden bijna realtime dashboards inzicht en kunnen deployments die limieten overschrijden worden geweigerd.
Omgevingen met tijdslimieten en automatische teardown-policies voorkomen dat infrastructuur onnodig actief blijft. Geplande shutdowns en maximale duur verminderen systematisch inactief verbruik.
Deze aanpak zorgt ervoor dat infrastructuur kan reageren op pieken in vraag terwijl strikte governance over capaciteit en uitgaven behouden blijft."
10. Als we drie tot vijf jaar vooruitkijken, denk je dat infrastructuurplatforms evolueren tot AI-native operating layers voor ondernemingen? Hoe ziet zo’n architectuur eruit?
Ben-Shabat: "Quali verwacht dat infrastructuurplatforms de komende jaren zullen evolueren naar AI-native operating layers. Deze ontwikkeling lijkt op de manier waarop Kubernetes de operating layer werd voor container-infrastructuur.
AI-native architecturen zullen beschikken over een gecentraliseerde control plane die intenties kan interpreteren vanuit menselijke prompts, pipelines of AI-agents en deze kan vertalen naar gecontroleerde omgevingen.
Een continue policy-kern zal compliance, kostenplafonds en toegangsgrenzen handhaven gedurende de volledige levenscyclus.
Gespecialiseerde agents zullen beslissingen nemen over schalen, herstelacties, driftbeheer, kostenoptimalisatie en troubleshooting binnen detect–decide–act-loops.
Menselijke goedkeuring blijft beschikbaar voor uitzonderlijke situaties.
In dit model fungeert het infrastructuurplatform als een soort enterprise-besturingssysteem voor AI, dat governance, kostenbeheer, orkestratie en operationele veerkracht coördineert over multi-cloud AI-omgevingen."