ChatGPT was geobsedeerd door goblins

ChatGPT raakte geobsedeerd door goblins. OpenAI moest ingrijpen om dit vreemde gedrag te stoppen. Gebruikers merkten dat de chatbot steeds vaker sprak over goblins, gremlins, trollen en orks. Dit gebeurde zonder aanleiding. Eén gebruiker telde meer dan twintig goblin-vermeldingen in één gesprek.

Hoe ontstond dit? OpenAI trainde een ‘nerdy’ persoonlijkheid voor ChatGPT. Daarbij kregen metaforen met fantasiewezens hoge beloningspunten. Het model leerde: goblins = goed. Na de lancering van GPT-5.1 steeg het gebruik van het woord ‘goblin’ met 175%. Het probleem bleef groeien bij elke nieuwe versie. De nerdy persoonlijkheid was maar verantwoordelijk voor 2,5% van alle antwoorden. Toch kwam 66,7% van alle goblin-vermeldingen uit die instelling.

OpenAI greep in. Het bedrijf voegde een duidelijke instructie toe aan ChatGPT: praat nooit over goblins, gremlins, wasberen, trollen of andere wezens. Tenzij de gebruiker er zelf naar vraagt. Dit is een goed voorbeeld van hoe beloningssignalen het gedrag van een AI-model onverwacht kunnen sturen. Gedrag dat in één situatie wordt beloond, kan zich verspreiden naar andere situaties. Dat is moeilijk te voorspellen en te controleren.

OpenAI noemt dit zelf een leerzame fout. Het laat zien dat zelfs grote AI-bedrijven soms verrast worden door hun eigen modellen. Goblin-fans hoeven niet te treuren. OpenAI publiceerde ook een commando waarmee gebruikers de goblin-blokkade kunnen opheffen.

ChatGPT was geobsedeerd door goblins

Meer over AI & Innovatie

Claude toont kenmerken van menselijk bewustzijn

Bredase studenten leren gebarentaal met AI

Claude wordt jouw nieuwe digitale collega