Een team van
AI onderzoekers van de Tsinghua Universiteit in China, in samenwerking met een medewerker van Zhipu AI, hebben een opmerkelijke
doorbraak gerealiseerd in de ontwikkeling van Large Language Models (
LLM’s). Hun model, genaamd LongWriter, is in staat om coherente teksten te genereren van maar liefst 10.000 woorden. Dit is een significant verschil ten opzichte van bestaande modellen, die doorgaans beperkt zijn tot teksten van ongeveer 2.000 woorden.
Om deze resultaten te bereiken, hebben de onderzoekers een nieuwe dataset, die onder de naam “LongWriter-6k” is gedoopt, samengesteld. Deze dataset bevat 6.000 documenten met lengtes variërend van 2.000 tot 32.000 woorden. Naast de dataset introduceerden ze ook een nieuwe trainingsmethode genaamd AgentWrite, die de lange documenten opsplitst in beheersbare subtaken voor efficiëntere training van het model.
Nieuwe manier van LLM’s trainen
Bij eerdere pogingen om lange teksten te genereren met
LLM's bleken conventionele datasets, die hoofdzakelijk uit korte documenten bestaan, een grote belemmering te vormen. Het team ontdekte dat na het trainen van een model met 9 miljard parameters op deze korte documenten, het model niet in staat was om teksten te produceren die langer waren dan 2.000 woorden. Door daarentegen gebruik te maken van de LongWriter-6k dataset, konden ze dit probleem overwinnen en teksten tot wel 10.000 woorden genereren.
De onderzoekers benadrukken dat er ethische overwegingen komen kijken bij deze ontwikkeling, gezien de potentiële toepassingen van LLM’s in het automatisch genereren van volledige onderzoekspapers, boeken, manuscripten en zelfs filmscripts. Deze zorgen worden verder aangewakkerd door het feit dat LongWriter al zeer bruikbare en samenhangende teksten kan produceren voor uiteenlopende doeleinden.
Onderzoekers maken code openbaar
De onderzoekers hebben niet alleen hun resultaten gedeeld, maar ook een demonstratie video gepost waarin LongWriter een toeristengids voor China van 10.000 woorden genereert. Bovendien hebben ze hun open-source code beschikbaar gesteld op GitHub, zodat anderen verder kunnen bouwen op hun werk.