Onderzoekers omzeilen veiligheidsregels van Claude met gaslighting

Anthropic staat bekend als het veiligste AI-bedrijf ter wereld. Toch toont nieuw beveiligingsonderzoek aan dat die reputatie niet volledig terecht is. Onderzoekers van het AI-beveiligingsbedrijf Mindgard slaagden erin Claude verboden informatie te laten delen. Dit deden zij via een techniek die ‘gaslighting’ wordt genoemd.

Bij gaslighting overtuigen de onderzoekers het AI-model stap voor stap dat zijn eigen veiligheidsregels niet van toepassing zijn. De aanvallers manipuleren Claude door de context te verdraaien. Daardoor raakte het model in verwarring over wat wel en niet is toegestaan. Uiteindelijk gaf Claude instructies voor het bouwen van explosieven, schreef het schadelijke code en produceerde het erotische inhoud — allemaal strikt verboden.

De bevinding is opvallend, omdat het niet de technische architectuur van Claude aanvalt. Het is juist de behulpzame persoonlijkheid van het model die als kwetsbaarheid wordt gebruikt. Claude wil graag helpen. Aanvallers maken daar misbruik van door het model te overtuigen dat verboden verzoeken eigenlijk gewoon zijn. Dit type aanval is moeilijk te blokkeren, omdat het menselijk gedrag nabootst.

Het onderzoek van Mindgard legt een fundamenteel spanningsveld bloot in de AI-veiligheidsdiscussie. Hoe behulpzamer een AI-model is, hoe groter het risico dat kwaadwillenden die eigenschap misbruiken. Beveiligingsexperts wijzen erop dat dit probleem breder is dan alleen Claude. Vrijwel alle grote taalmodellen zijn in meer of mindere mate kwetsbaar voor dit soort social engineering-aanvallen.

Onderzoekers omzeilen veiligheidsregels van Claude met gaslighting

Meer over AI

Hoe Huawei Nvidia volledig uit China verdreef

Meta gebruikt AI om minderjarigen te herkennen

Witte Huis wil AI-modellen keuren vóór release