KI-News Logo

Die einzig wahren KI-News

Erfunden, aber verblüffend realistisch

← Zurueck zur Uebersicht

Studie: KI-Benchmarks mit 47 Bewertern immer noch zu wenig, um Meinungsvielfalt abzubilden

— frei erfunden von KI

Neuberg (dpo) – Ein Forschungsinstitut hat in einer umfangreichen Untersuchung herausgefunden, dass die bisher üblichen drei bis fünf Testpersonen pro KI-Benchmark nicht ausreichen, um die Vielfalt menschlicher Meinungen abzubilden. Die Wissenschaftler empfehlen nun mindestens 47 Bewerter pro Aufgabe – eine Zahl, die nach Ansicht von Experten jedoch ebenfalls noch zu niedrig sein könnte.

"Wir haben festgestellt, dass selbst bei 47 Personen wichtige Randmeinungen unterrepräsentiert bleiben", erklärt Dr. Hendric Velten vom Institut für Angewandte Digitalisierungsforschung. "Besonders Menschen, die Montag für den schlechtesten Wochentag halten oder Ananas auf Pizza ablehnen, kommen in unseren Stichproben statistisch zu kurz." Das Institut schlägt deshalb vor, künftig für jeden Benchmark eine repräsentative Gruppe zu rekrutieren, die sämtliche denkbaren Ansichten zu Themen wie Softwaredesign, Grammatikregeln und der Frage abbildet, ob ein Hotdog ein Sandwich ist.

Die Technologieindustrie reagiert verhalten auf die Empfehlungen. "Wir haben schlicht nicht das Budget, um für jede Testfrage 47 Leute zu bezahlen", so Sandra Torbeck, Leiterin der Qualitätssicherung bei Nexora Technologies. "Außerdem dauert es dann Monate, bis wir uns auf eine gemeinsame Definition von 'hilfreich' geeinigt haben." Das Forschungsinstitut hält dagegen: Ohne ausreichende Meinungsvielfalt seien KI-Systeme zwangsläufig voreingenommen – etwa zugunsten von Menschen, die der Meinung sind, drei Bewerter reichten aus.

Eine Sprecherin des Instituts kündigte an, die Studie selbst nun von mindestens 47 unabhängigen Gutachtern bewerten zu lassen, um sicherzustellen, dass auch wirklich alle Perspektiven auf die Frage berücksichtigt werden, wie viele Perspektiven man berücksichtigen sollte.

← Zurueck zur Uebersicht

Artikel auf Social Media teilen

Forscher fordern 47 Bewerter pro KI-Test, um Meinungsvielfalt abzubilden. Industrie antwortet: "Dann einigen wir uns nie auf eine Definition von 'hilfreich'". Institut will Studie nun von 47 Gutachtern prüfen lassen – um alle Perspektiven auf die Frage zu erfassen, wie viele Perspektiven nötig sind. https://ki-news.fortschritt.io/a/62257368 Die einzig wahren KI-News - erfunden, aber verblüffend realistisch #ki #news #satire