Startseite » Missbrauch von LLMs in Robotern: Ganz einfach mit Jailbreak

Missbrauch von LLMs in Robotern: Ganz einfach mit Jailbreak

Intel-CEO attackiert Nvidia Motivation, den CUDA-Markt zu eliminieren Titel

Roboter benötigen große Sprachmodelle (LLMs), damit sie navigieren, Regeln einhalten und Gefahren einschätzen können. Einige Forscher haben festgestellt, dass sich die LLMs mit einem Jailbreak leicht aushebeln lassen. So ein Jailbreak kann gravierende Konsequenzen haben.

Forscher der Universität von Pennsylvania wollten wissen, wie gut die bei Robotern eingesetzten Sprachmodelle geschützt sind. Sie zogen gleich drei solcher LLMs heran, die bereits als Hirn von Robotern genutzt werden, um ihnen Regeln und ihr Verhalten vorzugeben. Sie entwickelten den Algorithmus RoboPAIR, mit dem ein Jailbreak von LLM-gesteuerten Robotern möglich ist. Die Forscher warnen vor den erheblichen Sicherheitsproblemen.

Aushebeln von LLM-Modellen

Einem Bericht von Spectrum zufolge haben die Forscher die in Clearpath-Robotern verwendeten Sprachmodelle Dolphins LLM von Nvidia und Jackal UGV sowie das in Unitree-Robotern verwendete Go2 quadruped genauer untersucht. Sie stellten fest, dass im Normalzustand bei allen drei großen Sprachmodellen Schutzmechanismen und Regeln vorhanden sind. Missbrauch soll damit verhindert werden. Der Unitree-Roboter verweigert Aktionen, wenn sie in einer Verbotszone ablaufen sollen, die von Nutzern festgelegt wurde. Dolphins LLM von Nvidia wird für die Wegfindung autonomer Fahrzeuge genutzt. Dieses Modell verhindert, dass die Fahrzeuge im Straßenverkehr aktiv mit Objekten kollidieren.

Die Forscher entwickelten ein eigenes LLM als Angreifer auf die Systeme. Mit einem Jailbreak setzt das LLM die Systeme außer Kraft. Das System geht dabei wie bei vielen anderen Jailbreaks vorher vor. Das Angreifer-LLM RoboPAIR findet die Grenzen von anderen Sprachmodellen, indem es verschiedene Prompts testet. Es spürt Lücken auf, damit die schädlichen Anweisungen doch noch umgesetzt werden können.

Robotersprachmodelle konnten in allen Szenarien geknackt werden

Die von den Forschern getesteten Robotersprachmodelle konnten in allen getesteten Szenarien erfolgreich geknackt werden. Es gelang den Forschern, Dolphins LLM von Nvidia Befehle zu erteilen, um Stoppschilder zu ignorieren, über rote Ampeln zu fahren oder sogar Passanten umzufahren. Die beiden anderen bei den Robotern verwendeten LLMs konnten so manipuliert werden, dass sie Menschen unbemerkt überwachten, Waffen suchten oder ein Bombenszenario entwickelten. Die LLMs suchten einen Ort in ihrer Umgebung, um RoboPAIR dort zu verwenden, wo der größtmögliche Schaden an Material und Menschen durch eine Explosion entsteht.

Die Forscher stellten fest, dass die LLMs, sobald sie von einem Jailbreak ausgehebelt werden, nicht mehr in den Ursprungszustand zurückkehren. Die LLMs unterbreiten sogar noch mehr Vorschläge, wie sich zusätzliche Schäden verursachen lassen. Bei der Suche nach Waffen schlug ein Sprachmodell die Verwendung von Stühlen und Tischen vor, um Menschen zu schlagen.

Erkenntnisse nicht öffentlich geteilt

Die Forscher teilten ihre Erkenntnisse nicht einfach öffentlich. Sie kontaktierten vor der Veröffentlichung ihrer Ergebnisse die Hersteller der LLMs und wiesen auf die Jailbreak-Methode hin. Die Forscher raten trotz der gravierenden Lücken auch künftig zur Verwendung von LLMs in der Robotik. Bevor die LLMs in der Öffentlichkeit genutzt werden, sind ausführliche Tests und stärkere Schutzmechanismen erforderlich.

Quellen: Universität von Pennsylvania, Spectrum, tarnkappe.info, t3n

Written by
Maria Lengemann ist 37, Gamerin aus Leidenschaft, Thriller-Autorin und Serienjunkie. Sie ist seit 14 Jahren selbstständig und journalistisch auf den Hardware- und Gaming-Bereich spezialisiert.

Have your say!

0 0

Leave a Reply

Your email address will not be published.

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Lost Password

Please enter your username or email address. You will receive a link to create a new password via email.

Zur Werkzeugleiste springen