Talkie: Een AI-model getraind op data van vóór 1931

dinsdag, 28 april 2026 om 21:54

In april 2026 presenteerden onderzoekers onder leiding van Nick Levine een opvallend nieuw AI-model: talkie-1930, een taalmodel dat uitsluitend is getraind op teksten van vóór 1931. Het project, waaraan ook David Duvenaud en Alec Radford meewerkten, laat zien hoe kunstmatige intelligentie zich gedraagt zonder moderne kennis of internetdata.

Het model biedt een unieke blik op AI-ontwikkeling en roept direct vragen op over data, bias en de toekomst van kunstmatige intelligentie.

Wat is talkie-1930 en waarom is het relevant?

Talkie-1930 is een zogenoemd “vintage language model” dat alleen historische teksten gebruikt. Het model is getraind op 260 miljard tokens uit boeken, kranten en documenten van vóór 1931, waardoor het geen kennis heeft van moderne gebeurtenissen of technologieën.

Deze aanpak maakt het model fundamenteel anders dan hedendaagse AI-systemen. Moderne modellen zijn afhankelijk van internetdata, terwijl talkie juist laat zien hoe AI functioneert zonder die invloed. Dat maakt het een waardevol experiment voor onderzoekers die willen begrijpen hoe data de output van AI bepaalt.

Wat maakt dit model technisch bijzonder?

Talkie is met 13 miljard parameters het grootste model in zijn soort. Het model is vergelijkbaar qua architectuur met moderne systemen, maar verschilt volledig in trainingsdata.

De belangrijkste technische inzichten:

Het model presteert slechter op kennisvragen dan moderne AI
Het verschil halveert wanneer “anachronistische” vragen worden verwijderd
Het model toont verrassend sterke taalvaardigheid ondanks beperkte data
Het kan eenvoudige programmeertaken uitvoeren via voorbeelden

Deze resultaten laten zien dat taalbegrip deels losstaat van actuele kennis. Dat is relevant voor AI-ontwikkeling in sectoren waar betrouwbaarheid en controle belangrijk zijn, zoals overheid en onderwijs.

Waarom zijn ‘vintage’ AI-modellen interessant?

Vintage modellen bieden een gecontroleerde testomgeving voor AI-onderzoek. Omdat ze geen moderne data bevatten, zijn ze vrij van “data contamination”, een bekend probleem waarbij modellen antwoorden reproduceren uit hun trainingsdata.

Dit opent nieuwe mogelijkheden:

Betere evaluatie van generalisatievermogen
Inzicht in hoe AI nieuwe kennis “ontdekt”
Vergelijking tussen verschillende datasets en tijdsperiodes

Onderzoekers gebruiken talkie bijvoorbeeld om te testen of een model toekomstige uitvindingen kan voorspellen of reconstrueren. Denk aan theorieën zoals die van Albert Einstein of concepten uit de computerwetenschap.

Wat zijn de beperkingen en risico’s?

De beperkingen van talkie zijn direct zichtbaar. Het model weerspiegelt de normen en waarden van begin 20e eeuw. Dat betekent dat:

Genderrollen vaak traditioneel worden weergegeven
Sociale ongelijkheid impliciet wordt genormaliseerd
Moderne perspectieven volledig ontbreken

Daarnaast speelt datakwaliteit een grote rol. Historische teksten zijn vaak via OCR (tekstherkenning) gedigitaliseerd, wat fouten introduceert en prestaties verlaagt tot slechts 30 procent van optimaal niveau.

Deze beperkingen maken duidelijk hoe sterk AI afhankelijk is van zijn trainingsdata.

Hoe gaat dit project verder?

De onderzoekers willen talkie snel opschalen. Ze werken aan:

Grotere datasets, mogelijk meer dan 1 biljoen tokens
Betere OCR-technologie voor historische teksten
Meertalige uitbreiding van het model
Nieuwe evaluatiemethoden voor AI-voorspellingsvermogen

Het uiteindelijke doel is een model op het niveau van GPT-3.5, maar dan volledig gebaseerd op historische data.

Conclusie: terugkijken om AI vooruit te helpen

Talkie-1930 bewijst dat vooruitgang in AI niet alleen draait om méér data, maar ook om andere data. Door terug te kijken naar het verleden krijgen onderzoekers beter inzicht in hoe taalmodellen werken, waar bias ontstaat en hoe AI zich ontwikkelt.

Voor Nederland biedt dit een kans om kritischer en strategischer naar AI te kijken. Niet alleen wat technologie kan, maar vooral wat het leert van de wereld die we erin stoppen.