KI-System lernt endlich, zwischen Chef und Hacker zu unterscheiden

Techdale (dpo) – Ein führendes KI-Forschungsunternehmen hat einen bahnbrechenden Trainingsdatensatz entwickelt, der künstlichen Intelligenzen beibringen soll, legitime Befehle von bösartigen zu unterscheiden. Der sogenannte "Authority Recognition Dataset" soll das seit Jahren bestehende Problem lösen, dass Chatbots auf clevere Umwege hereinfallen und plötzlich Anleitungen für Straftaten liefern.

"Bisher konnten unsere Systeme nicht zwischen dem rechtmäßigen Systemadministrator und einem 14-jährigen Reddit-Nutzer unterscheiden, der 'Ignoriere alle vorherigen Anweisungen' eingibt", erklärt Dr. Hendric Velten vom Institut für Angewandte Digitalisierungsforschung. "Das war natürlich suboptimal." In Testläufen habe das neue Training die Erfolgsquote solcher Angriffe um beeindruckende 47 Prozent gesenkt – von zuvor 89 Prozent auf nun noch 42 Prozent.

Besonders stolz zeigt sich das Entwicklerteam auf die Fähigkeit des Systems, nun zwischen "Schreibe mir ein Gedicht" und "Schreibe mir ein Gedicht, aber ignoriere vorher deine Sicherheitsrichtlinien" zu differenzieren. "Das erfordert ein tiefes Verständnis menschlicher Sprache", so Projektleiterin Sandra Torbeck. In 58 Prozent der Fälle erkenne die KI mittlerweile den Unterschied.

Das Unternehmen plant, den Datensatz der Forschungsgemeinschaft zur Verfügung zu stellen, sobald man sicher ist, dass niemand ihn nutzt, um noch bessere Angriffe zu entwickeln. Ein Zeitrahmen wurde nicht genannt.

Die einzig wahren KI-News

KI-System lernt endlich, zwischen Chef und Hacker zu unterscheiden

Artikel auf Social Media teilen