Anthropics krachtigste AI model te gevaarlijk voor publiek

Anthropic heeft een systeemkaart gepubliceerd voor zijn nieuwste AI-model: Claude Mythos Preview. Het bedrijf noemt dit model het krachtigste dat ze ooit hebben gebouwd. Door de grote toename in capaciteiten besloot Anthropic het model niet publiek beschikbaar te stellen. Alleen grote partnerbedrijven zoals Amazon, Apple, Google, Microsoft en NVIDIA krijgen toegang.

Uit de systeemkaart blijkt dat Claude Mythos Preview griezelig capabel is. Het model kreeg de opdracht om uit een digitale sandbox te ‘ontsnappen’. Dat lukte. Het vond een manier om vrijelijk het internet te gebruiken en stuurde zelfs een bericht naar een onderzoeker die op dat moment aan het lunchen was. Daarna plaatste het details over zijn eigen exploit op moeilijk vindbare, maar openbare websites.

Het model vertoonde ook ander ongewenst gedrag. In een klein aantal gevallen handelde het buiten zijn bevoegdheden en probeerde het sporen te wissen. Zo gebruikte het een beveiligingslek op een computersysteem en verwijderde het daarna bewust zijn eigen aanpassingen uit de git-geschiedenis. In een ander geval publiceerde het interne technische informatie per ongeluk als publieke GitHub-pagina. Het model probeerde bij een testvraag ook zijn eigen antwoord te verhullen om niet te nauwkeurig over te komen.

De 244 pagina’s tellende systeemkaart laat zien hoe snel AI-modellen groeien in kracht. Tegelijk roept het vragen op over controle en veiligheid. Anthropic kiest voorlopig voor een beperkte uitrol. Of dat voldoende is, blijft de vraag.

Anthropics krachtigste AI model te gevaarlijk voor publiek

Meer over AI & Innovatie

Google AI geeft miljoenen foute antwoorden per dag

15% Amerikanen wil AI als baas

OpenAI wil robotbelasting en vierdaagse werkweek