Een kleine groep onbevoegde gebruikers heeft toegang gekregen tot Mythos, een geheim AI-model van Anthropic. Dit meldde Bloomberg onlangs. De gebruikers combineerden slimme internettrucs met toegang via een derde partij. Zo wisten ze het model te bereiken zonder directe toestemming van Anthropic.
De groep maakte gebruik van een privé Discord-kanaal. Daar zoeken leden actief naar informatie over nog niet uitgebrachte AI-modellen. Ze gebruikten bots om onbeveiligde websites zoals GitHub te doorzoeken. Ook speelde een recent datalek bij Mercor een rol. Mercor is een AI-trainingsstart-up die samenwerkt met grote techbedrijven. Dat lek gaf de groep inzicht in de locatie van Mythos.
Eén persoon in de groep had legitieme toegang tot Anthropic-software. Die toegang verkreeg hij via contractwerk voor een evaluatiebedrijf. Daarmee konden de gebruikers een gok wagen over de locatie van Mythos. Ze gokten op basis van bekende URL-patronen van andere Anthropic-modellen. De groep heeft geen kwaadaardige prompts ingevoerd. Ze bouwden liever eenvoudige websites om detectie te vermijden. Hun doel was nieuwsgierigheid, niet sabotage.
Anthropic onderzoekt het incident. Het bedrijf zegt geen bewijs te hebben dat de toegang verder reikte dan de omgeving van de derde partij. De eigen systemen van Anthropic lijken niet getroffen. Toch is de zaak zorgwekkend. De groep zou ook toegang hebben tot andere nog niet uitgebrachte Anthropic-modellen. Dit incident toont aan hoe kwetsbaar AI-ontwikkeling kan zijn, zelfs via indirecte toegangswegen.