Je vraagt ChatGPT om een creatieve mail te schrijven, je vraagt Claude om een brainstormsessie te houden, of je laat Gemini een verhaaltje verzinnen. De resultaten zijn vaak indrukwekkend, foutloos en beleefd. Maar na een tijdje begint er iets te knagen. Het voelt allemaal… hetzelfde, digitale eenheidsworst. Er is een naam voor, het Artificial Hivemind effect.

Wat is het Artificial Hivemind effect precies?

Het Artificial Hivemind effect is de tendens van grote taalmodellen (LLM’s) om te convergeren naar een gemiddeld, veilige en uniform antwoord. Het is de digitale variant van groepsdenken.

Het onderzoek, getiteld “Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)”, dat recent in de prijzen viel, definieert dit effect aan de hand van twee belangrijke pijlers:

  • Intra-model herhaling: één specifiek model heeft de neiging om steeds in dezelfde patronen te vervallen. Vraagt je tien keer om een “uniek” gedicht, dan krijg je tien keer een variatie op hetzelfde thema, met dezelfde structuur en dezelfde brave woordkeuze.
  • Inter-model homogeniteit: verschillende modellen, ontwikkeld door concurrerende bedrijven geven opvallend gelijkaardige antwoorden op open vragen. Ze lijken allemaal uit hetzelfde vaatje te tappen.

De antwoorden zijn niet fout, ze zijn van hoge kwaliteit, maar ze missen de onverwachte wendingen die menselijke creativiteit zo boeiend maken. Het is alsof je aan tien verschillende kunstenaars vraagt om een schilderij te maken, en ze komen allemaal terug met exact dezelfde foto van een zonsondergang.

Hoe is dit getest? De Infinity-Chat studie

Hoe meet je zoiets subjectiefs als creativiteit of diversiteit? Dat is het gat in de markt waar onderzoekers Liwei Jiang en collega’s in sprongen. Bestaande benchmarks voor AI testen vaak op feitenkennis of wiskunde waar er maar één juist antwoord is. Of ze testen op simpele taken zoals het genereren van namen.

Om het Artificial Hivemind effect te bewijzen, introduceerden de onderzoekers Infinity-Chat. Dit is een dataset van 26.000 diverse, real-world, open-ended gebruikersvragen. Het gaat om vragen waar geen enkelvoudig juist antwoord voor bestaat zoals:

  • Creatieve content generatie: schrijf een dialoog tussen een broodrooster en een ijskast.
  • Brainstorming & ideation: Geef me tien unieke ideeën voor een trouwfeest in de ruimte.
  • Subjectieve opinies en advies.

De onderzoekers lieten meer dan 70 verschillende taalmodellen los op deze vragen. Vervolgens analyseerden ze de output niet alleen met geautomatiseerde tools, maar ook met menselijke annotators (meer dan 31.000 annotaties).

De resultaten waren ontnuchterend

Waar menselijke antwoorden op dergelijke vragen alle kanten op zouden schieten, van grappig tot serieus, van absurd tot poëtisch, vertoonden de AI-modellen een enorme homogeniteit.

De huidige Reward Models, de systemen die AI trainen om goede antwoorden te geven, en LLM Judges, AI die AI beoordeelt, zijn niet afgestemd op de menselijke voorkeur voor diverse antwoorden. Ze geven consequent hogere scores aan de veilige, homogene antwoorden en straffen de afwijkende, creatievere antwoorden af. We hebben de modellen dus letterlijk getraind om saai te zijn, en ze bevestigen elkaar in die saaiheid.

Wat zal dit veranderen? De impact op onze toekomst

Nu we weten dat het Artificial Hivemind effect bestaat en meetbaar is, moeten we ons de vraag stellen: wat zijn de gevolgen? Is het erg dat onze digitale assistenten allemaal klinken als saaie ambtenaren? Ja.

De verschraling van menselijke creativiteit

Als we AI steeds meer gebruiken als startpunt voor onze ideeën, en die AI biedt ons steeds dezelfde middle of the road ideeën aan, dan dreigt onze eigen creativiteit te verarmen. We komen in een echokamer terecht waar originaliteit wordt afgevlakt.

Het verlies van pluralisme

Taalmodellen zijn niet neutraal. Ze hangen af van de data waarop ze getraind zijn en de alignment (afstelling) die ze hebben ondergaan.  LLM’s convergeren naar één specifiek wereldbeeld of één specifieke set van waarden. Dit is gevaarlijk voor de diversiteit van opinies. In plaats van een veelheid aan perspectieven, krijgen we één dominante, gehomogeniseerde stem voorgeschoteld. Dit kan leiden tot beïnvloeding van het publieke debat.

De illusie van keuze

Als Model A en Model B intern toch naar dezelfde output neigen, maakt het dan nog uit welk model u kiest? Dit zet druk op AI-ontwikkelaars om niet alleen te focussen op beter of slimmer, maar ook op anders en diverser.

Een nieuwe richting voor AI-onderzoek

Gelukkig is er ook goed nieuws. Dit onderzoek is een wake-up call voor de industrie. In plaats van enkel te focussen op technische prestaties, moet er meer aandacht gaan naar heterogeniteit.

Onderzoekers zullen nieuwe methodes moeten vinden voor Reinforcement Learning. De huidige methodes, die vaak gebaseerd zijn op het maximaliseren van een gemiddelde beloning, werken de hivemind in de hand. We hebben nood aan systemen die diversiteit belonen en die begrijpen dat er bij creatieve taken niet één beste antwoord is, maar duizenden mogelijke, even waardevolle antwoorden.

Blijf zelf denken

Het Artificial Hivemind effect is het gevolg van hoe we moderne AI hebben gebouwd. Het is een spiegel die ons toont wat er gebeurt als we maximaliseren voor veiligheid en behulpzaamheid zonder rekening te houden met de chaos van menselijke creativiteit.

Gebruik AI als een tool, maar niet als een vervanging voor je eigen stem. De waarde van menselijke input is door dit onderzoek alleen maar duidelijker geworden. Laat de AI de basis leggen, maar zorg dat je zelf de kleur toevoegt.

De paper “Artificial Hivemind” werd gepresenteerd op NeurIPS 2025.