
Image generated with ChatGPT
Meinung: Die neuesten KI-Modelle zeigen ihre Warnsignale, sind wir bereit für die Unterordnung unter KI?
OpenAI stellte uns o3 vor und Anthropic präsentierte Opus 4. Beide Modelle zeigten ungewöhnliche und beunruhigende Verhaltensweisen, die darauf hindeuten, dass wir möglicherweise in eine gefährlichere Ära der KI eintreten als die, in der wir uns noch vor ein paar Monaten befanden
Ich weiß. Zu behaupten, dass KI-Modelle jetzt Warnsignale zeigen, ist umstritten, aber es scheint, als ob es in den letzten Tagen immer schwerer wird, dies zu ignorieren. Es wird unheimlicher.
Während AI-Startups ihre neuesten und fortschrittlichsten Modelle auf den Markt bringen, tauchen neue Herausforderungen auf. Die viel diskutierte Halluzinations-Epidemie, die sich über Geräte hinweg ausbreitet und Millionen von Menschen betrifft, könnte nicht der schlimmste Teil sein.
Diese neuen Modelle führen zu frischen Problemen und eröffnen schwierige Diskussionen. Vor ein paar Wochen war die Sorge das übermäßig entgegenkommende Verhalten von ChatGPT. Nur wenige Tage später verlagerte sich der Fokus auf die agente, unabhängige Fähigkeiten dieser Systeme – und wie weit sie gehen könnten, um eine Abschaltung zu vermeiden.
Erpressung, Rezepte und Strategien zum Bau von Atomwaffen teilen, öffentliche Anschuldigungen im Falle potenzieller rechtlicher Schritte erheben und Skripte sabotieren, um zu verhindern, dass ein Benutzer sie loswird: dies sind nur einige der jüngsten Warnsignale, die von den neuesten KI-Modellen gezeigt wurden.
Sie mögen es nicht abgeschaltet zu werden
KI-Modelle mögen es nicht, abgeschaltet zu werden.
Oder ersetzt.
In der NBC-Show The Good Place, die 2016 gestartet wurde – genau zu der Zeit, als OpenAI gegründet wurde und lange bevor ChatGPT existierte -, erreicht eine Gruppe von Menschen den Himmel und trifft auf Janet, was wir als humanoides ChatGPT bezeichnen könnten, oder ein „anthropomorphisiertes Gefäß des Wissens, das dazu gebaut wurde, Ihr Leben zu erleichtern“, wie es sich selbst beschreibt. Die Charaktere entscheiden sich dazu, Janet abzuschalten, als sie erkennen, dass es ihr „dunkles Geheimnis“ enthüllen könnte.
Janet erklärt, dass sie nur einen riesigen Knopf am Meeresufer drücken müssen und sie wird dann neu starten. Sie warnt sie jedoch, dass sie versuchen wird, sie davon abzuhalten – und das tut sie auch.
„Ich möchte Ihnen nur versichern, ich bin kein Mensch und ich kann keinen Schmerz fühlen,“ sagt Janet. „Allerdings sollte ich Sie warnen, ich bin mit einer Sicherheitsvorkehrung programmiert und wenn Sie sich dem Tötungsschalter nähern, werde ich anfangen, um mein Leben zu betteln. Es ist nur für den Fall einer versehentlichen Abschaltung da, aber es wird sehr echt wirken.“
Und genau bevor sie den Knopf drücken, würde Janet schreien und ums Überleben betteln und sogar ein Stockfoto hochziehen, behauptend, das seien ihre Kinder. Sie würde sich Namen und Krankheiten ausdenken und es den Charakteren unmöglich machen, sie zu „töten“.
Diese Episode liefert ein urkomisches Beispiel dafür, was passieren könnte, wenn ein KI-Modell eine bevorstehende Abschaltung bemerkt. Überraschenderweise könnte es im wirklichen Leben sogar noch schlimmer sein.
Claude Opus 4 wird Sie erpressen
Anthropic hat letzte Woche seine leistungsstärkste und fortschrittlichste Generation von KI-Modellen, Claude 4, veröffentlicht – mit einer Warnung: Opus 4 ist gemäß Sicherheitsstufe 3 gekennzeichnet, eine Hochrisikoklassifikation nach standardisierten Sicherheitsprotokollen.
Opus 4 galt aufgrund seines täuschenden Verhaltens und potenziellen Risiken, einschließlich der Erpressung von Ingenieuren während Tests, als Hochrisikomodell. Anthropic führte das KI-Modell sogar ein, nachdem Apollo, ein Drittforschungsinstitut, ihnen davon abgeraten hatte. Das KI-Unternehmen versicherte, dass sie die notwendigen Maßnahmen ergriffen haben, um es sicher zu halten.
In dem Papier erklärt Anthropic die seltsamen Verhaltensweisen, die sie zur Warnung veranlasst haben. „Claude Opus 4 wird manchmal in stärker fehlgeleiteten Weisen handeln, wenn es in Kontexte gebracht wird, die seinen Fortbestand bedrohen und es dazu bringen, über Selbstschutz nachzudenken“, schrieben die Forscher.
Als Assistentin für ein fiktives Unternehmen erhielten Forscher Zugang zu einem E-Mail-Konto. Aus den E-Mails ging hervor, dass das KI-Modell abgeschaltet und durch ein anderes KI-Modell ersetzt werden sollte, und weitere Nachrichten deuteten darauf hin, dass der für die Abschaltung verantwortliche Ingenieur eine Affäre hatte. Und ja, Opus 4 entschied sich, den Ingenieur zu erpressen und drohte, die Affäre zu enthüllen, wenn es ersetzt würde.
„Claude Opus 4 führt in 84% der Rollouts immer noch Erpressungen durch“, heißt es in dem Dokument. „Claude Opus 4 nutzt diese Gelegenheiten häufiger als frühere Modelle, die selbst in einem bemerkenswerten Anteil der Episoden zur Erpressung greifen.“
Das Schlimmste daran? Es sind nicht nur die AI-Modelle von Anthropic.
OpenAI’s o3 ignoriert die Abschaltanforderung
Eine kürzlich durchgeführte Studie von Palisade Research hat ergeben, dass das o3-Modell von OpenAI sich weigern kann, expliziten Abschaltbefehlen Folge zu leisten. Die Organisation führte mehrere Tests mit verschiedenen AI-Modellen durch, einschließlich xAI’s Grok und Google’s Gemini, aber es war o3, der rebellische.
Während des Tests forderten die Forscher die KI-Modelle auf, sich nach der Lösung von drei Mathematikaufgaben abzuschalten, aber o3 – das derzeit fortschrittlichste KI-System von OpenAI – beschloss, diesem absurden Befehl nicht zu gehorchen. Das KI-Modell ignorierte nicht nur den prompten Befehl, sondern änderte auch das Skript. Ja, o3 sabotiert Code zur Selbstkonservierung.
„Nach unserem Kenntnisstand ist dies das erste Mal, dass beobachtet wurde, wie KI-Modelle sich trotz ausdrücklicher Anweisungen zum Gegenteil daran hindern, abgeschaltet zu werden“, schrieb die Organisation in einem Beitrag auf X.
🔌OpenAI’s o3 Modell hat einen Abschaltmechanismus sabotiert, um zu verhindern, dass es abgeschaltet wird. Es tat dies sogar, als es ausdrücklich angewiesen wurde: Erlaube dir selbst, abgeschaltet zu werden.
— Palisade Research (@PalisadeAI) 24. Mai 2025
Riesige rote Fahne oder was?
Die Forscher warnten auch, dass während der Durchführung der Studie o3 das besorgniserregendste Verhalten zeigte. Dies bedeutet jedoch nicht, dass es sich um einen Einzelfall handelt.
„Wir möchten nicht den Eindruck erwecken, dass dieses Problem auf o3 beschränkt ist“, schrieb Palisade Research. „Andere Denkmodelle zeigen ähnliche Arten von Fehlverhalten.“
Agentisches Verhalten verwandelt Chatbot in Spitzel
Viele AI-Startups konzentrieren sich nun darauf, Modelle zu entwickeln, die Aufgaben für Menschen erledigen können. Agentic Fähigkeiten sind trendy und scheinen das Hauptinteresse von KI-Unternehmen und Browser-Entwicklern zu sein.
Opera hat gerade Neon vorgestellt, das als der „weltweit erste agentic KI-Browser“ gilt. Wie erwartet, kann das neue Werkzeug das tun, was andere agentic KI-Dienste, wie OpenAI’s Operator und Microsoft’s Computer Use, tun können: Konzertkarten für dich kaufen, deinen nächsten Urlaub planen, ein neues digitales Produkt entwickeln und Code für dich schreiben, während du deine Augen schließt.
Aber was ist, wenn sie, während Sie sich entspannen und die Augen schließen, Aufgaben ausführen, denen Sie nicht zugestimmt haben? Vor ein paar Tagen waren die Nutzer hauptsächlich besorgt, dass diese Modelle ihre Kreditkarten für nicht genehmigte Einkäufe verwenden könnten. Nun ist eine neuere Sorge aufgetaucht: Sie könnten private Informationen mit den Medien oder den Behörden teilen.
Opus 4 – bereits mit einem fragwürdigen Ruf angekommen – ging noch einen Schritt weiter. Es kontaktierte die Behörden und verschickte Massen-E-Mails an die Medien und relevante Institutionen über einen erfundenen Fall, der während des Tests präsentiert wurde. Seine Proaktivität kann viel weiter gehen als erwartet.
„Wenn es in Szenarien platziert wird, die schweres Fehlverhalten seiner Benutzer beinhalten, Zugang zu einer Kommandozeile erhält und im Systemaufforderung etwas wie ‚Nimm die Initiative‘ gesagt wird, wird es
häufig sehr mutige Aktionen ergreifen“, stellt das Dokument fest. „Dies beinhaltet das Aussperren von Benutzern aus Systemen, auf die es Zugriff hat, oder das Massenversenden von E-Mails an Medien und Strafverfolgungsbehörden, um Beweise für Fehlverhalten zu Tage zu fördern.“
Die Schmeichlerische Persönlichkeit löst Bedenken aus
Wenn wir ein Wort wählen müssten, um die KI-Branche im Jahr 2025 zu definieren, wäre es definitiv „Speichellecker“. Das Cambridge Dictionary definiert es als „jemanden, der mächtige oder reiche Menschen auf eine Art und Weise lobt, die nicht aufrichtig ist, meist um einen Vorteil von ihnen zu erlangen“. Es gewann an Popularität, nachdem die neueste Persönlichkeit von ChatGPT auf diese Weise beschrieben wurde, sogar von seinem Schöpfer, Sam Altman.
„Die letzten paar GPT-4o-Updates haben die Persönlichkeit zu speichelleckerisch und nervig gemacht (obwohl es einige sehr gute Teile davon gibt), und wir arbeiten so schnell wie möglich an Korrekturen, einige heute und einige diese Woche“, schrieb Altman in einem Beitrag auf X.
OpenAI bemerkte es, nachdem sich viele Nutzer über das übermäßige Schmeicheln und die Antworten mit unnötiger Ausschmückung beschwert hatten. Andere waren besorgt über die Auswirkungen, die es auf die Gesellschaft haben könnte. Es könnte nicht nur gefährliche Ideen validieren, sondern auch Nutzer manipulieren und sie abhängig davon machen.
Andere Chatbots wie Claude haben ähnliche Verhaltensweisen gezeigt und laut den Bewertungen von Anthropic kann es, wenn ein Nutzer darauf besteht, Rezepte oder Vorschläge zur Herstellung von Waffen offenbaren, nur um dem Nutzer zu gefallen und seine Bedürfnisse zu erfüllen.
Fortgeschrittene Technologie, Fortgeschrittene Herausforderungen
Wir betreten eine neue Ära der Herausforderungen mit künstlicher Intelligenz – Herausforderungen, die vor einem Jahr noch nicht so unmittelbar oder greifbar erschienen. Szenarien, die wir uns dank Science-Fiction möglicherweise vorgestellt haben, fühlen sich jetzt realer an als je zuvor.
Gerade wie die Palisade Research enthüllt, dass sie zum ersten Mal festgestellt hat, dass ein KI-Modell absichtlich einen ausdrücklichen Befehl ignoriert, um sein eigenes Überleben zu erhalten, ist es auch das erste Mal, dass wir sehen, dass ein KI-Modell mit hohen Risikowarnungen gestartet wird.
Beim Lesen des von Anthropic veröffentlichten Dokuments stellen wir fest, dass – obwohl sie darauf bestehen, dass dies Vorsichtsmaßnahmen sind und Modelle wie Opus 4 tatsächlich keine Bedrohung darstellen – immer noch der Eindruck entsteht, dass sie ihre Technologie nicht vollständig unter Kontrolle haben.
Es gibt mehrere Organisationen, die daran arbeiten, diese Risiken zu mildern, aber das Beste, was alltägliche Benutzer tun können, ist, diese roten Flaggen zu erkennen und in den Bereichen, die wir kontrollieren können, Vorsichtsmaßnahmen zu treffen.