Apple blaast vergeten AI-techniek nieuw leven in

Nieuws
vrijdag, 27 juni 2025 om 18:20
apple
De meeste generatieve beeldmodellen vallen vandaag de dag onder twee categorieën: diffusiemodellen (zoals Stable Diffusion) of autoregressieve modellen (zoals OpenAI’s GPT-4o). Maar Apple heeft nu twee wetenschappelijke papers gepubliceerd die suggereren dat er ruimte is voor een derde, vergeten techniek: Normalizing Flows. En met een beetje Transformer-technologie erbovenop blijken deze krachtiger dan gedacht. Dat meldt 9-to-5mac.

Wat zijn Normalizing Flows?

Normalizing Flows (NFs) zijn een type AI-model dat leert hoe het echte data zoals beelden wiskundig kan omzetten in gestructureerde ruis, en dat proces daarna kan omkeren om nieuwe voorbeelden te genereren.
Het grote voordeel is dat flows de exacte waarschijnlijkheid kunnen berekenen van elke gegenereerde afbeelding, iets dat diffusiemodellen niet kunnen. Daardoor zijn ze aantrekkelijk voor toepassingen waarbij de waarschijnlijkheid van een uitkomst belangrijk is.
Toch hoor je er weinig over, omdat vroege flow-gebaseerde modellen vaak wazige beelden opleverden, met minder detail en variatie dan diffusion- of transformer-systemen.

Studie 1: TarFlow

In de paper “Normalizing Flows are Capable Generative Models” introduceert Apple een nieuw model genaamd TarFlow, wat staat voor Transformer AutoRegressive Flow.
De kernvernieuwing: in plaats van handgemaakte lagen gebruikt TarFlow Transformer-blokken. Beelden worden opgesplitst in kleine stukjes (patches), die stuk voor stuk worden gegenereerd, telkens gebaseerd op voorgaande blokken. Dit heet autoregressief, net zoals OpenAI’s GPT-modellen.
Belangrijk verschil: waar OpenAI discrete tokens genereert (en zo beelden als tekstreeksen behandelt), genereert Apple’s TarFlow direct pixelwaarden. Geen tokenisatie dus, wat kwaliteitsverlies voorkomt.
Een beperking bleef echter: opschalen naar hoge resolutie was lastig. Daarvoor bedacht Apple een tweede model.

Studie 2: STARFlow

In de paper “STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis” bouwt Apple voort op TarFlow met het model STARFlow (Scalable Transformer AutoRegressive Flow).
De belangrijkste vernieuwing: STARFlow genereert geen beelden meer direct in pixelruimte, maar werkt in een gecomprimeerde latente ruimte. Daarna reconstrueert een decoder het beeld in hoge resolutie.
Hierdoor hoeft het model niet miljoenen pixels te voorspellen. Het richt zich op de globale structuur, terwijl de decoder de fijne details invult.
Ook is de omgang met tekstprompts verbeterd: in plaats van een eigen tekstverwerker maakt STARFlow gebruik van bestaande taalmodellen zoals Google’s lichte model Gemma. Dit kan in theorie lokaal op apparaten draaien, precies Apple’s doel: modellen die werken op je eigen device.

Apple vs. OpenAI

Waar Apple kiest voor directe beeldgeneratie en on-device toepassingen, pakt OpenAI het anders aan. GPT-4o behandelt beelden als een reeks tokens (net als woorden), en genereert één token tegelijk.
Voordeel: GPT-4o is veelzijdig, het model kan tekst, beeld én audio genereren binnen één stroom. Nadeel: dit is traag en zwaar voor de hardware. Maar dat is geen probleem voor OpenAI, dat op cloudservers draait.
De conclusie: zowel Apple als OpenAI bewegen zich weg van diffusiemodellen. Maar Apple ontwikkelt voor je broekzak, en OpenAI voor het datacenter.

Populair nieuws