Studie: KI-Benchmarks mit 47 Bewertern immer noch zu wenig, um Meinungsvielfalt abzubilden

Neuberg (dpo) – Ein Forschungsinstitut hat in einer umfangreichen Untersuchung herausgefunden, dass die bisher üblichen drei bis fünf Testpersonen pro KI-Benchmark nicht ausreichen, um die Vielfalt menschlicher Meinungen abzubilden. Die Wissenschaftler empfehlen nun mindestens 47 Bewerter pro Aufgabe – eine Zahl, die nach Ansicht von Experten jedoch ebenfalls noch zu niedrig sein könnte.

"Wir haben festgestellt, dass selbst bei 47 Personen wichtige Randmeinungen unterrepräsentiert bleiben", erklärt Dr. Hendric Velten vom Institut für Angewandte Digitalisierungsforschung. "Besonders Menschen, die Montag für den schlechtesten Wochentag halten oder Ananas auf Pizza ablehnen, kommen in unseren Stichproben statistisch zu kurz." Das Institut schlägt deshalb vor, künftig für jeden Benchmark eine repräsentative Gruppe zu rekrutieren, die sämtliche denkbaren Ansichten zu Themen wie Softwaredesign, Grammatikregeln und der Frage abbildet, ob ein Hotdog ein Sandwich ist.

Die Technologieindustrie reagiert verhalten auf die Empfehlungen. "Wir haben schlicht nicht das Budget, um für jede Testfrage 47 Leute zu bezahlen", so Sandra Torbeck, Leiterin der Qualitätssicherung bei Nexora Technologies. "Außerdem dauert es dann Monate, bis wir uns auf eine gemeinsame Definition von 'hilfreich' geeinigt haben." Das Forschungsinstitut hält dagegen: Ohne ausreichende Meinungsvielfalt seien KI-Systeme zwangsläufig voreingenommen – etwa zugunsten von Menschen, die der Meinung sind, drei Bewerter reichten aus.

Eine Sprecherin des Instituts kündigte an, die Studie selbst nun von mindestens 47 unabhängigen Gutachtern bewerten zu lassen, um sicherzustellen, dass auch wirklich alle Perspektiven auf die Frage berücksichtigt werden, wie viele Perspektiven man berücksichtigen sollte.

Die einzig wahren KI-News

Studie: KI-Benchmarks mit 47 Bewertern immer noch zu wenig, um Meinungsvielfalt abzubilden

Artikel auf Social Media teilen