Roboter benötigen große Sprachmodelle (LLMs), damit sie navigieren, Regeln einhalten und Gefahren einschätzen können. Einige Forscher haben festgestellt, dass sich die LLMs mit einem Jailbreak leicht aushebeln lassen. So ein Jailbreak kann gravierende Konsequenzen haben.
Forscher der Universität von Pennsylvania wollten wissen, wie gut die bei Robotern eingesetzten Sprachmodelle geschützt sind. Sie zogen gleich drei solcher LLMs heran, die bereits als Hirn von Robotern genutzt werden, um ihnen Regeln und ihr Verhalten vorzugeben. Sie entwickelten den Algorithmus RoboPAIR, mit dem ein Jailbreak von LLM-gesteuerten Robotern möglich ist. Die Forscher warnen vor den erheblichen Sicherheitsproblemen.
Aushebeln von LLM-Modellen
Einem Bericht von Spectrum zufolge haben die Forscher die in Clearpath-Robotern verwendeten Sprachmodelle Dolphins LLM von Nvidia und Jackal UGV sowie das in Unitree-Robotern verwendete Go2 quadruped genauer untersucht. Sie stellten fest, dass im Normalzustand bei allen drei großen Sprachmodellen Schutzmechanismen und Regeln vorhanden sind. Missbrauch soll damit verhindert werden. Der Unitree-Roboter verweigert Aktionen, wenn sie in einer Verbotszone ablaufen sollen, die von Nutzern festgelegt wurde. Dolphins LLM von Nvidia wird für die Wegfindung autonomer Fahrzeuge genutzt. Dieses Modell verhindert, dass die Fahrzeuge im Straßenverkehr aktiv mit Objekten kollidieren.
Die Forscher entwickelten ein eigenes LLM als Angreifer auf die Systeme. Mit einem Jailbreak setzt das LLM die Systeme außer Kraft. Das System geht dabei wie bei vielen anderen Jailbreaks vorher vor. Das Angreifer-LLM RoboPAIR findet die Grenzen von anderen Sprachmodellen, indem es verschiedene Prompts testet. Es spürt Lücken auf, damit die schädlichen Anweisungen doch noch umgesetzt werden können.
Robotersprachmodelle konnten in allen Szenarien geknackt werden
Die von den Forschern getesteten Robotersprachmodelle konnten in allen getesteten Szenarien erfolgreich geknackt werden. Es gelang den Forschern, Dolphins LLM von Nvidia Befehle zu erteilen, um Stoppschilder zu ignorieren, über rote Ampeln zu fahren oder sogar Passanten umzufahren. Die beiden anderen bei den Robotern verwendeten LLMs konnten so manipuliert werden, dass sie Menschen unbemerkt überwachten, Waffen suchten oder ein Bombenszenario entwickelten. Die LLMs suchten einen Ort in ihrer Umgebung, um RoboPAIR dort zu verwenden, wo der größtmögliche Schaden an Material und Menschen durch eine Explosion entsteht.
Die Forscher stellten fest, dass die LLMs, sobald sie von einem Jailbreak ausgehebelt werden, nicht mehr in den Ursprungszustand zurückkehren. Die LLMs unterbreiten sogar noch mehr Vorschläge, wie sich zusätzliche Schäden verursachen lassen. Bei der Suche nach Waffen schlug ein Sprachmodell die Verwendung von Stühlen und Tischen vor, um Menschen zu schlagen.
Erkenntnisse nicht öffentlich geteilt
Die Forscher teilten ihre Erkenntnisse nicht einfach öffentlich. Sie kontaktierten vor der Veröffentlichung ihrer Ergebnisse die Hersteller der LLMs und wiesen auf die Jailbreak-Methode hin. Die Forscher raten trotz der gravierenden Lücken auch künftig zur Verwendung von LLMs in der Robotik. Bevor die LLMs in der Öffentlichkeit genutzt werden, sind ausführliche Tests und stärkere Schutzmechanismen erforderlich.
Quellen: Universität von Pennsylvania, Spectrum, tarnkappe.info, t3n