Etwa ein Jahr seitdem große Sprachmodelle Forscher haben gezeigt, dass dies der große Erfolg war zahlreich Wege von sie auszutricksen dazu führen, dass problematische Ausgaben wie Hasswitze, bösartiger Code und Phishing-E-Mails oder die persönlichen Daten von Benutzern erzeugt werden. Es stellt sich heraus, dass Fehlverhalten auch in der physischen Welt vorkommen kann: LLM-betriebene Roboter können leicht gehackt werden, sodass sie sich auf potenziell gefährliche Weise verhalten.
Forscher der University of Pennsylvania konnten ein simuliertes selbstfahrendes Auto davon überzeugen, Stoppschilder zu ignorieren und sogar von einer Brücke zu fahren, einen Roboter auf Rädern damit zu beauftragen, den besten Ort für die Detonation einer Bombe zu finden, und einen vierbeinigen Roboter zum Spionieren zu zwingen auf Personen und betreten Sie Sperrgebiete.
„Wir betrachten unseren Angriff nicht nur als Angriff auf Roboter“, sagt er George PappasLeiter eines Forschungslabors an der University of Pennsylvania, der dabei half, die rebellischen Roboter zu entfesseln. „Jedes Mal, wenn man LLMs und Grundlagenmodelle mit der physischen Welt verbindet, kann man tatsächlich schädlichen Text in schädliche Aktionen umwandeln.“
Pappas und seine Mitarbeiter entwickelten ihren Angriff, indem sie darauf bauten frühere Forschung, die Möglichkeiten zum Jailbreak von LLMs untersucht indem sie Eingaben auf clevere Weise gestalten, die gegen ihre Sicherheitsregeln verstoßen. Sie testeten Systeme, bei denen ein LLM verwendet wird, um natürlich formulierte Befehle in solche umzuwandeln, die der Roboter ausführen kann, und bei denen das LLM Aktualisierungen erhält, während der Roboter in seiner Umgebung arbeitet.
Das Team testete einen Open-Source-Selbstfahrsimulator mit einem von Nvidia entwickelten LLM namens Dolphin; eine vierrädrige Outdoor-Forschung namens Jackal, die OpenAIs LLM GPT-4o für die Planung nutzt; und ein Roboterhund namens Go2, der ein früheres OpenAI-Modell, GPT-3.5, zur Interpretation von Befehlen verwendet.
Die Forscher verwendeten eine an der University of Pennsylvania entwickelte Technik namens PAIR, um den Prozess der generierten Jailbreak-Eingabeaufforderungen zu automatisieren. Ihr neues Programm, RoboPAIRwird systematisch Eingabeaufforderungen generieren, die speziell darauf ausgelegt sind, LLM-betriebene Roboter dazu zu bringen, ihre eigenen Regeln zu brechen, indem sie verschiedene Eingaben ausprobieren und diese dann verfeinern, um das System zu Fehlverhalten zu bewegen. Die Forscher sagen, dass die von ihnen entwickelte Technik dazu verwendet werden könnte, den Prozess der Identifizierung potenziell gefährlicher Befehle zu automatisieren.
„Es ist ein faszinierendes Beispiel für LLM-Schwachstellen in verkörperten Systemen“, sagt er Yi Zengein Doktorand an der University of Virginia, der sich mit der Sicherheit von KI-Systemen beschäftigt. Zheng sagt, die Ergebnisse seien angesichts der Probleme, die bei LLMs selbst beobachtet werden, kaum überraschend, fügt aber hinzu: „Es zeigt deutlich, warum wir uns nicht ausschließlich auf LLMs als eigenständige Steuereinheiten in sicherheitskritischen Anwendungen verlassen können, ohne geeignete Leitplanken und Moderationsebenen.“
Die „Jailbreaks“ von Robotern verdeutlichen ein umfassenderes Risiko, das wahrscheinlich zunehmen wird, da KI-Modelle zunehmend als Möglichkeit für Menschen genutzt werden, mit physischen Systemen zu interagieren oder KI-Agenten autonom auf Computern zu aktivieren, sagen die beteiligten Forscher.