AI Benchmark: Mensheid versus geavanceerde modellen

Google en OpenAI

Leestijd: < 1 minuutRecente evaluaties tonen aan dat geavanceerde AI-modellen, zoals GPT-4 van OpenAI en Gemini 1.5 Pro van Google, moeite hebben met het beantwoorden van complexe vragen die menselijke expertise vereisen. Een nieuwe benchmark, “Humanity’s Last Exam” (HLE), ontwikkeld door het Center for AI Safety (CAIS) en Scale AI, is ontworpen om de grenzen van deze modellen … Read more