Humanity's Last Exam: Neuer KI-Test an dem alle Modelle scheitern
Humanity's Last Exam: Neuer KI-Test an dem alle Modelle scheitern

Humanity's Last Exam: Neuer KI-Test an dem alle Modelle scheitern

Die neuesten und leistungsfähigsten KI-Modelle erreichen laut der Anbieter gut und gerne 90 Prozent der gängigen Benchmarks. Das bedeutet schlicht, dass sie einen derart hohen Anteil an Aufgaben eines standardisierten Tests bestehen können. Nun gibt es jedoch einen neuen Test samt wissenschaftlichem Paper: Humanity's Last Exam. An diesem scheitern selbst die fortschrittlichsten Modelle.
Entwickelt wurde der Benchmark von den beiden US-Organisationen Scale AI und dem Center for AI Safety (CAIS). Die haben von knapp 1000 Experten aus 50 Ländern Fragen zu ihren jeweiligen Gebieten eingeholt. 70.000 Fragen sind zusammengekommen. Von denen haben Menschen in einem Review-Prozess 13.000 Fragen genauer angeschaut, in den Test sind davon wiederum 3000 Fragen aufgenommen worden. Es geht dabei um Mathematik, Naturwissenschaften, Geisteswissenschaften und mehr. Die Aufgabenstellungen variieren zwischen reinen Textaufgaben bis zu benötigten multimodalen Fähigkeiten, um Diagramme und Bilder zu verstehen. Wie der Name des Tests schon erahnen lässt, meinen die Experten, den ultimativen Test entwickelt zu haben.