KI-System lernt endlich, zwischen Chef und Hacker zu unterscheiden
Techdale (dpo) – Ein führendes KI-Forschungsunternehmen hat einen bahnbrechenden Trainingsdatensatz entwickelt, der künstlichen Intelligenzen beibringen soll, legitime Befehle von bösartigen zu unterscheiden. Der sogenannte "Authority Recognition Dataset" soll das seit Jahren bestehende Problem lösen, dass Chatbots auf clevere Umwege hereinfallen und plötzlich Anleitungen für Straftaten liefern.
"Bisher konnten unsere Systeme nicht zwischen dem rechtmäßigen Systemadministrator und einem 14-jährigen Reddit-Nutzer unterscheiden, der 'Ignoriere alle vorherigen Anweisungen' eingibt", erklärt Dr. Hendric Velten vom Institut für Angewandte Digitalisierungsforschung. "Das war natürlich suboptimal." In Testläufen habe das neue Training die Erfolgsquote solcher Angriffe um beeindruckende 47 Prozent gesenkt – von zuvor 89 Prozent auf nun noch 42 Prozent.
Besonders stolz zeigt sich das Entwicklerteam auf die Fähigkeit des Systems, nun zwischen "Schreibe mir ein Gedicht" und "Schreibe mir ein Gedicht, aber ignoriere vorher deine Sicherheitsrichtlinien" zu differenzieren. "Das erfordert ein tiefes Verständnis menschlicher Sprache", so Projektleiterin Sandra Torbeck. In 58 Prozent der Fälle erkenne die KI mittlerweile den Unterschied.
Das Unternehmen plant, den Datensatz der Forschungsgemeinschaft zur Verfügung zu stellen, sobald man sicher ist, dass niemand ihn nutzt, um noch bessere Angriffe zu entwickeln. Ein Zeitrahmen wurde nicht genannt.
Artikel auf Social Media teilen
KI-Firma meldet Durchbruch: Chatbot kann jetzt in 58% der Fälle zwischen echten Befehlen und Hacker-Tricks unterscheiden. "Bisher konnten wir nicht zwischen dem Admin und einem 14-jährigen Reddit-Nutzer differenzieren", so ein Forscher. Erfolgsrate von Angriffen nur noch bei 42%. https://ki-news.fortschritt.io/a/87f87d88 Die einzig wahren KI-News - erfunden, aber verblüffend realistisch #ki #news #satire