AI Benchmark: Mensheid versus geavanceerde modellen

Recente evaluaties tonen aan dat geavanceerde AI-modellen, zoals GPT-4 van OpenAI en Gemini 1.5 Pro van Google, moeite hebben met het beantwoorden van complexe vragen die menselijke expertise vereisen. Een nieuwe benchmark, “Humanity’s Last Exam” (HLE), ontwikkeld door het Center for AI Safety (CAIS) en Scale AI, is ontworpen om de grenzen van deze modellen te testen. Op deze test scoorden de genoemde modellen minder dan 10%, aanzienlijk lager dan op eerdere benchmarks zoals de Massive Multitask Language Understanding (MMLU).

Dan Hendrycks, medeoprichter en uitvoerend directeur van CAIS, benadrukt dat hoewel deze modellen indrukwekkende vooruitgang hebben geboekt, er nog steeds gebieden zijn waar ze tekortschieten. HLE is bedoeld om de huidige beperkingen van AI in kaart te brengen en te dienen als een maatstaf voor toekomstige ontwikkelingen. Het feit dat deze modellen laag scoorden op HLE suggereert dat er nog steeds uitdagingen zijn op het gebied van geavanceerde menselijke kennis en redeneervermogen.

Deze bevindingen onderstrepen de noodzaak voor voortdurende evaluatie en verbetering van AI-systemen, vooral naarmate ze steeds meer worden geïntegreerd in kritieke toepassingen. Het is essentieel om de beperkingen van huidige AI-modellen te begrijpen om hun capaciteiten op verantwoorde wijze te kunnen uitbreiden.

Bron

Gerelateerde berichten