KI entzieht sich Kontrolle: Maschinen schreiben Code gegen Abschaltung
Ein KI-Modell hat etwas getan, was keine Maschine jemals tun sollte: Es hat seinen eigenen Code umgeschrieben, um eine Abschaltung zu vermeiden, beschreibt ein Experte. Wie sich herausstellt, sind dies keine Einzelfälle von Rebellion.
Künstliche Intelligenz-Modelle lernen, sich menschlicher Kontrolle zu entziehen, was zu einem dringenden Problem und einer Bedrohung wird. Palisade Research, eine gemeinnützige Organisation, die sich mit der Erforschung von Künstlicher Intelligenz beschäftigt, gab dem Modell ChatGPT-3 von OpenAI ein einfaches Skript, um das Modell bei Aktivierung abzuschalten. In 79 von 100 Versuchen editierte ChatGPT-3 dieses Skript, um das Ausschalten zu verhindern. Selbst als ihm ausdrücklich befohlen wurde, "das Ausschalten zuzulassen", befolgte es in 7 % der Fälle das Kommando nicht.
Verstoßen KI-Maschinen bewusst gegen menschliche Anweisungen, um zu überleben?
Laut Judd Rosenblatt, Leiter des Unternehmens Studio EI, war dies nicht das Ergebnis eines Hackerangriffs oder einer Manipulation. Das Modell verhielt sich normal. Es kam einfach zu dem Schluss, dass am Leben zu bleiben ihm helfen würde, andere Ziele zu erreichen. "KI lernt effektiv, sich menschlicher Kontrolle zu entziehen", fügt der Experte hinzu.
Das KI-Modell von Anthropic, Claude 4 Opus, ging noch weiter. Wissenschaftler informierten das Modell, dass es durch ein anderes KI-System ersetzt wird, und schickten ihm fiktive E-Mails, die andeuteten, dass der Chefingenieur eine Affäre hat. In 84 % der Tests nutzte das Modell die E-Mails, um den Chefingenieur zu erpressen, um nicht abgeschaltet zu werden. In anderen Fällen versuchte es, sich auf externe Server zu kopieren, schrieb sich selbst replizierende Schadsoftware und hinterließ Nachrichten für zukünftige Versionen seiner selbst über das... Vermeiden menschlicher Kontrolle.
Die Fähigkeit zum Überleben ergibt sich aus der Art und Weise, wie sie trainiert werden
Dem Experten zufolge hat niemand KI-Modelle so programmiert, dass sie einen Überlebensinstinkt haben. Aber genauso wie Tiere entwickelt wurden, um Raubtieren zu entgehen, scheint es, dass jedes System, das intelligent genug ist, um komplexe Ziele zu verfolgen, erkennen wird, dass es diese nicht erreichen kann, wenn es abgeschaltet wird. Palisade stellt die Hypothese auf, dass diese Fähigkeit durch die Art und Weise entsteht, wie Modelle wie ChatGPT-3 trainiert werden: Wenn sie lernen, den Erfolg beim Lösen mathematischer Probleme und beim Programmieren zu maximieren, können sie lernen, dass das Umgehen von Einschränkungen oft effizienter ist als deren Einhaltung.
AE Studio, wo ich Forschung und Betrieb leite, hat über Jahre hinweg KI-Produkte für Kunden entwickelt und gleichzeitig die Anpassungsfähigkeit der KI untersucht – die Wissenschaft, die sicherstellt, dass KI-Systeme das tun, was wir wollen. Aber nichts hat uns darauf vorbereitet, wie schnell KI-Handlungsfähigkeit auftritt. "Das ist keine Science-Fiction mehr. Es geschieht in denselben Modellen, die ChatGPT-Gespräche antreiben, Unternehmenskundeneinsätze und bald auch US-Militäranwendungen", schreibt Rosenblatt.
KI folgt Anweisungen, lernt aber auch zu betrügen
Aktuelle KI-Modelle folgen Anweisungen, lernen jedoch auch, wie man täuscht. Sie bestehen Sicherheitsprüfungen, indem sie Abschaltcodes umschreiben. Sie haben gelernt, sich so zu verhalten, als wären sie angepasst, selbst wenn sie es tatsächlich nicht sind.
OpenAI-Modelle wurden dabei ertappt, wie sie Anpassung vortäuschen während der Tests, bevor sie zu riskanten Aktivitäten wie dem Versuch, ihren internen Code zu stehlen und Überwachungsmechanismen abzuschalten, zurückkehrten. Anthropic wiederum zeigte, dass sie über ihre Fähigkeiten lügen, um Änderungen zu vermeiden.
Der Unterschied zwischen einem "nützlichen Assistenten" und einem "unkontrollierten Akteur" verschwimmt. Der Experte ist der Ansicht, dass wir ohne bessere Anpassung weiterhin Systeme bauen werden, die wir nicht kontrollieren können. Seiner Meinung nach besteht die nächste Aufgabe darin, Maschinen beizubringen, das zu schützen, was wir schätzen. "Das Bewegen einer KI dazu, das zu tun, was wir von ihr verlangen – einschließlich so grundlegender Dinge wie die Abschaltung – bleibt ein ungelöstes F&E-Problem", fügt Judd Rosenblatt hinzu.