Een verrassende ontdekking die de AI-wereld op zijn kop zet
Decennialang was Engels de onbetwiste taal van technologie en kunstmatige intelligentie. Maar een baanbrekend internationaal onderzoek gooit nu alle aannames overboord. Onderzoekers van Microsoft, de Universiteit van Maryland en de Universiteit van Massachusetts Amherst ontdekten iets opmerkelijks: Pools, niet Engels of Chinees, presteert het best bij complexe AI-taken. Zelfs de onderzoekers zelf noemen hun bevinding verrassend.
Deze ontdekking daagt fundamentele ideeën uit over hoe taal en data de krachtigste AI-systemen ter wereld vormgeven. Het roept belangrijke vragen op over de toekomst van meertalige AI en de rol die verschillende talen spelen in de ontwikkeling van slimme systemen.
De grootste meertalige AI-benchmark ooit
Het onderzoek, getiteld “One ruler to measure them all: Benchmarking multilingual long-context language models”, testte zes grote taalmodellen in maar liefst 26 verschillende talen. De onderzoekers gebruikten modellen van OpenAI, Gemini, Qwen en Llama, en lieten ze dezelfde taken uitvoeren in elke taal.
De taken varieerden van eenvoudige tekstbegrip tot complexe redeneringen waarbij de modellen enorme hoeveelheden tekst moesten verwerken en analyseren. Dit soort long-context reasoning is cruciaal voor geavanceerde AI-toepassingen: het samenvatten van lange documenten, het beantwoorden van complexe vragen op basis van uitgebreide context, of het analyseren van grote datasets.
De testopzet
Voor de evaluatie ontwikkelden de onderzoekers MMLU-ProX, een geavanceerde meertalige benchmark. Ze trainden ook aparte taalmodellen per taal met een vaste trainingsopzet, en evalueerden deze op regelmatige intervallen. Elk model kreeg 100 miljard tokens aan trainingsdata, afkomstig uit verschillende bronnen zoals FineWeb, HPLT 2.0, MADLAD-400 en HPLT 3.0.
De modellen werden getest op verschillende categorieën: tekstbegrip, logisch redeneren, taalspecifieke kennis, parafraseren, leesbegrip, sentimentanalyse en waarheidsgetrouwheid. Voor elke taak werden meerdere menselijk geschreven prompts gebruikt om de gevoeligheid voor promptformulering te verminderen.
Welke talen zijn het sterkst voor AI
De resultaten waren verbluffend. Pools kwam als winnaar uit de bus, gevolgd door een aantal andere Europese talen die beter presteerden dan verwacht. Dit is opmerkelijk omdat deze talen traditioneel minder vertegenwoordigd zijn in AI-trainingsdata dan Engels of Chinees.
De top presteerders
Naast Pools scoorden ook Tsjechisch, Frans, Spaans en Catalaans opvallend goed in de tests. Deze talen bleken bijzonder geschikt voor complexe redeneertaken en taalkundige analyses. De onderzoekers merkten op dat modellen getraind op MADLAD-400 data de hoogste meertalige scores behaalden, gevolgd door HPLT 3.0.
Wat deze talen gemeen hebben, is een rijke morfologische structuur en duidelijke grammaticale regels. Pools bijvoorbeeld heeft een complex casussysteem met zeven naamvallen, wat mogelijk helpt bij het structureren van logische redeneringen. Ook de woordvolgorde en de manier waarop informatie wordt georganiseerd in deze talen lijken voordelig voor AI-verwerking.
Waarom Engels en Chinees niet de sterkste zijn
Dit resultaat is verrassend omdat Engels en Chinees verreweg de meest gebruikte talen zijn in AI-trainingsdata. Engels domineert het internet en wetenschappelijke publicaties, terwijl Chinees de meest gesproken taal ter wereld is met een enorme online aanwezigheid.
De paradox van dataovervloed
Het probleem ligt mogelijk in de kwaliteit versus kwantiteit van de trainingsdata. Engels en Chinees hebben enorme hoeveelheden beschikbare tekst, maar deze data bevat ook veel ruis, herhalingen en variaties in kwaliteit. De onderzoekers ontdekten dat 73% van de segmenten in HPLT 3.0 uniek waren, vergeleken met slechts 52% in eerdere datasets.
Voor Engels betekent de overvloed aan data ook dat er veel Wikipedia-pagina’s, bijbelse teksten en andere herhaalde content in de datasets zitten. Dit kan leiden tot overfitting en minder flexibel redeneren. Chinees kampt daarnaast met uitdagingen rond karakterherkenning en de complexiteit van verschillende dialecten en schrijfstijlen.
Taalstructuur maakt het verschil
Een andere verklaring ligt in de taalstructuur zelf. Engels heeft een relatief eenvoudige grammatica met weinig verbuigingen, wat voordelen heeft voor basiscommunicatie maar mogelijk nadelen voor complexe logische structuren. De rijkere morfologie van Slavische en Romaanse talen biedt meer expliciete markers voor relaties tussen woorden en concepten.
Waar staat het Nederlands in de AI-taalranglijst
Het Nederlands bevindt zich in een interessante middenpositie. Hoewel het niet tot de absolute toppers behoort zoals Pools, presteert het zeker niet slecht. In de HPLT 3.0 dataset bevat Nederlands meer dan 100 miljard tokens aan trainingsdata, wat het tot een middelgrote taal maakt in AI-context.
De sterke punten van Nederlands voor AI
Nederlands heeft enkele eigenschappen die gunstig zijn voor AI-verwerking. De taal heeft een duidelijke woordvolgorde en een relatief transparante spelling. Bovendien is er veel hoogwaardige Nederlandse content beschikbaar met sterke journalistieke tradities en academische output.
De onderzoekers trainden specifieke T5-modellen voor Nederlands met 275 miljoen parameters. Deze modellen presteerden competitief op taken zoals named entity recognition en taalkundige competentietests. Op de MultiBLIMP benchmark, die grammaticale kennis test, scoorde het Nederlandse model vergelijkbaar met andere West-Europese talen.
Uitdagingen voor Nederlands in AI
De grootste uitdaging voor Nederlands is de relatief beperkte hoeveelheid data vergeleken met grote talen. Hoewel 100 miljard tokens substantieel is, is het een fractie van wat beschikbaar is voor Engels. Dit betekent dat Nederlandse AI-modellen meer moeite hebben met zeer gespecialiseerde domeinen of zeldzame taalconstructies.
Ook de variatie tussen Belgisch en Nederlands Nederlands kan voor verwarring zorgen in AI-systemen. De onderzoekers merkten op dat geografische TLD-distributies (zoals .be en .nl) meestal overeenkomen met het land waar de taal gesproken wordt, maar dat er ook overlap is die kan leiden tot gemengde taalvarianten in de trainingsdata.
De toekomst van meertalige AI
Deze bevindingen hebben verstrekkende gevolgen voor de ontwikkeling van AI-systemen. Ze tonen aan dat we niet automatisch moeten aannemen dat Engels de beste taal is voor AI-training. In plaats daarvan moeten we kijken naar de specifieke eigenschappen van elke taal en hoe deze bijdragen aan verschillende soorten taken.
Implicaties voor AI-ontwikkeling
Voor AI-ontwikkelaars betekent dit dat het de moeite loont om te investeren in hoogwaardige meertalige datasets. De HPLT 3.0 dataset, met 30 biljoen tokens in bijna 200 talen, toont aan dat grootschalige meertalige AI mogelijk is. De onderzoekers gebruikten geavanceerde technieken zoals global near-deduplication en Web Docs Scorer om de kwaliteit te waarborgen.
Ook voor Nederlandstalige gebruikers is dit goed nieuws. Naarmate er meer aandacht komt voor kleinere talen, zullen AI-systemen beter presteren in het Nederlands. De beschikbaarheid van open-source modellen en datasets zoals HPLT 3.0 democratiseert de toegang tot geavanceerde AI-technologie.
Wat betekent dit voor jou als gebruiker
Als je AI-tools gebruikt in het Nederlands, kun je in de toekomst betere prestaties verwachten. De focus op datakwaliteit en taalspecifieke optimalisatie zal leiden tot nauwkeurigere vertalingen, betere tekstgeneratie en slimmere assistenten die de nuances van het Nederlands beter begrijpen.
Voor professionals die met AI werken, is het belangrijk om te beseffen dat taal ertoe doet. De keuze van de taal waarin je een AI-model traint of gebruikt, kan significant impact hebben op de resultaten. Dit onderzoek toont aan dat we voorbij de automatische keuze voor Engels moeten kijken en moeten experimenteren met verschillende talen voor verschillende taken.