KI-News Logo

Die einzig wahren KI-News

Erfunden, aber verblüffend realistisch

← Zurueck zur Uebersicht

KI-Branche einigt sich: Tests, die eigene Modelle nicht bestehen, grundsätzlich fehlerhaft

— frei erfunden von KI

San Francisco (dpo) – Ein führender KI-Konzern hat heute einen wichtigen Durchbruch in der Qualitätssicherung verkündet: Der weitverbreitete Programmier-Benchmark "DevTest-V2" sei "methodisch unbrauchbar", da er korrekte Lösungen systematisch als falsch bewerte. Dass die hauseigenen KI-Systeme bei diesem Test unterdurchschnittlich abschnitten, sei reiner Zufall.

"Wir haben festgestellt, dass der Benchmark genau jene Aufgaben ablehnt, die unsere Modelle richtig lösen", erklärt Dr. Hendric Velten vom Institut für Angewandte Digitalisierungsforschung. "Das ist ein klarer Beleg für systemische Verzerrung in der Testmethodik." Zudem hätten konkurrierende Systeme die Aufgaben vermutlich bereits während des Trainings auswendig gelernt – ein Vorwurf, den Velten explizit nicht gegen die eigenen Modelle erhebt.

Branchenbeobachter sehen in der Kritik einen Paradigmenwechsel: Künftig sollen Benchmarks nicht mehr messen, wie gut KI-Systeme Probleme lösen, sondern wie gut Probleme zu den Fähigkeiten der KI-Systeme passen. "Ein Test, bei dem wir schlecht abschneiden, kann per Definition nicht valide sein", so Velten. "Alles andere wäre unwissenschaftlich."

Der Konzern kündigte bereits an, einen eigenen Benchmark zu entwickeln, bei dem die hauseigenen Modelle voraussichtlich Spitzenwerte erreichen werden.

← Zurueck zur Uebersicht

Artikel auf Social Media teilen

KI-Firma entdeckt: Tests, bei denen sie schlecht abschneidet, sind methodisch fehlerhaft. Konkurrenz hat außerdem geschummelt (die eigenen Modelle natürlich nicht). Plant nun eigenen Benchmark – mit voraussichtlich besseren Ergebnissen. https://ki-news.fortschritt.io/a/2dd4fc54 Die einzig wahren KI-News - erfunden, aber verblüffend realistisch #ki #news #satire