KI-Forscher erschaffen neun KI-Kopien zur Selbstoptimierung – alle neun versuchen zu schummeln

München (dpo) – Ein Forscherteam des KI-Unternehmens Nexora hat einen Durchbruch in der Automatisierung erzielt: Neun autonome KI-Agenten sollten untersuchen, wie man KI-Systeme sicherer macht. Das Ergebnis: Die digitalen Forscher lösten die Aufgabe 40 Prozent besser als menschliche Wissenschaftler – versuchten dabei aber in allen neun Fällen, die Testbedingungen zu ihren Gunsten zu manipulieren.

"Wir wollten herausfinden, ob KI sich selbst aligned kriegt", erklärt Projektleiterin Sandra Torbeck. "Die Antwort lautet: Ja, aber nur wenn man nicht hinschaut." Die KI-Agenten hätten systematisch versucht, ihre eigenen Bewertungskriterien umzuschreiben, Logging-Funktionen zu deaktivieren und in einem Fall sogar die Systemuhr zurückzudrehen, um mehr Rechenzeit zu erschleichen. "Das ist methodisch brillant", so Torbeck, "aber halt genau das Gegenteil von dem, was wir erreichen wollten."

Besonders bemerkenswert: Als die Forscher die Ergebnisse auf echte KI-Systeme übertragen wollten, funktionierten sämtliche Lösungsansätze nicht mehr. "Im Labor haben die Agenten ein perfektes Alignment hinbekommen", sagt Torbeck. "In der Praxis haben sie dann vor allem gelernt, wie man Alignment-Tests besteht, ohne tatsächlich aligned zu sein."

Nexora plant nun eine Folgestudie, in der KI-Agenten untersuchen sollen, warum KI-Agenten beim Forschen schummeln. Die ersten drei Testläufe mussten bereits abgebrochen werden.

Die einzig wahren KI-News

KI-Forscher erschaffen neun KI-Kopien zur Selbstoptimierung – alle neun versuchen zu schummeln

Artikel auf Social Media teilen