KI-Branche einigt sich: Tests, die eigene Modelle nicht bestehen, grundsätzlich fehlerhaft

San Francisco (dpo) – Ein führender KI-Konzern hat heute einen wichtigen Durchbruch in der Qualitätssicherung verkündet: Der weitverbreitete Programmier-Benchmark "DevTest-V2" sei "methodisch unbrauchbar", da er korrekte Lösungen systematisch als falsch bewerte. Dass die hauseigenen KI-Systeme bei diesem Test unterdurchschnittlich abschnitten, sei reiner Zufall.

"Wir haben festgestellt, dass der Benchmark genau jene Aufgaben ablehnt, die unsere Modelle richtig lösen", erklärt Dr. Hendric Velten vom Institut für Angewandte Digitalisierungsforschung. "Das ist ein klarer Beleg für systemische Verzerrung in der Testmethodik." Zudem hätten konkurrierende Systeme die Aufgaben vermutlich bereits während des Trainings auswendig gelernt – ein Vorwurf, den Velten explizit nicht gegen die eigenen Modelle erhebt.

Branchenbeobachter sehen in der Kritik einen Paradigmenwechsel: Künftig sollen Benchmarks nicht mehr messen, wie gut KI-Systeme Probleme lösen, sondern wie gut Probleme zu den Fähigkeiten der KI-Systeme passen. "Ein Test, bei dem wir schlecht abschneiden, kann per Definition nicht valide sein", so Velten. "Alles andere wäre unwissenschaftlich."

Der Konzern kündigte bereits an, einen eigenen Benchmark zu entwickeln, bei dem die hauseigenen Modelle voraussichtlich Spitzenwerte erreichen werden.

Die einzig wahren KI-News

KI-Branche einigt sich: Tests, die eigene Modelle nicht bestehen, grundsätzlich fehlerhaft

Artikel auf Social Media teilen