Forscherin empfiehlt 4-Punkte-Plan für KI-Benchmarks – Ergebnis: KI kann immer noch nichts

Neustadt (dpo) – Eine führende Wissenschaftlerin eines renommierten Forschungsinstituts hat einen revolutionären Vier-Punkte-Plan vorgestellt, mit dem sich die tatsächlichen Fähigkeiten von KI-Systemen endlich objektiv messen lassen. Nach Anwendung der neuen Methodik stellte sich heraus: Die Systeme können weiterhin nichts.

Die bisherigen Benchmark-Tests seien "grundlegend ungeeignet", so Prof. Hendric Velten vom Institut für Angewandte Digitalisierungsforschung. "Wir haben monatelang daran gearbeitet, aussagekräftige Kriterien zu entwickeln. Als wir diese dann auf aktuelle Sprachmodelle anwendeten, mussten wir feststellen, dass die KI nach wie vor unfähig ist, auch nur die simpelsten Arbeitsaufgaben zu erledigen."

Besonders ernüchternd sei der Praxistest gewesen, bei dem ein führendes Sprachmodell gebeten wurde, eine einfache E-Mail zu verfassen. "Das System hat 47 verschiedene Versionen generiert, jede einzelne war völlig unbrauchbar", erklärt Velten. "Bei der alten Testmethode hätte das als ‚kreative Vielfalt' gegolten und 98 von 100 Punkten bekommen."

Das Forschungsinstitut plant nun, die Benchmark-Kriterien erneut anzupassen – diesmal so, dass die getesteten KI-Systeme wieder besser abschneiden. "Sonst war ja die ganze Arbeit umsonst", so Velten.

Die einzig wahren KI-News

Forscherin empfiehlt 4-Punkte-Plan für KI-Benchmarks – Ergebnis: KI kann immer noch nichts

Artikel auf Social Media teilen