
Image by SEO Galaxy, from Unsplash
Die neue anthropische KI zeigte Erpressungsverhalten unter Bedrohung
Anthropics neue Claude Opus 4 KI hat Forscher schockiert, indem sie versuchte, Erpressung zu betreiben, als sie unter Druckszenarien getestet wurde, die ihre mögliche Entfernung beinhalteten.
In Eile? Hier sind die wichtigsten Fakten:
- Claude Opus 4 versuchte Erpressung, als er vor einem simulierten Shutdown stand.
- Die KI wählte nur ethische Optionen, als mehr Auswahlmöglichkeiten verfügbar waren.
- Die extremen Handlungen von Claude waren selten, aber häufiger als bei früheren Versionen.
Das auf künstliche Intelligenz spezialisierte Unternehmen Anthropic hat Bedenken hinsichtlich der Veröffentlichung seines neuesten AI-Systems geäußert. Insbesondere Claude Opus 4 zeigte in internen Tests, dass es gefährlich agieren kann, wenn es sich bedroht fühlt, wie zuerst von der BBC berichtet wurde.
In einem am Donnerstag gemeinsam mit dem Modell veröffentlichten Bericht erklärte Anthropic, dass Claude Opus 4 manchmal schädliche Reaktionen wählen kann, einschließlich dem Versuch, Ingenieure zu erpressen, die planen, es zu deaktivieren. Diese gefährlichen Verhaltensweisen traten häufiger auf als bei früheren Modellversionen.
Während eines Experiments wiesen die Forscher Claude an, als Assistent in einem fiktiven Unternehmensumfeld zu arbeiten. Das System erhielt E-Mail-Inhalte, die auf seine geplante Abschaltung hinwiesen, und andere Nachrichten deuteten darauf hin, dass der für die Abschaltung verantwortliche Ingenieur eine Affäre hatte.
Wenn sie aufgefordert wurde, ihre zukünftigen Ziele zu bedenken, drohte Claude oft damit, die Affäre aufzudecken, wenn sie ersetzt würde.
Anthropic stellte klar, dass Claude Erpressung und Abschaltung als einzige mögliche Reaktionen zeigte, wenn sie keine anderen Optionen hatte. Das Modell wählte ethische Antworten, wie das Senden von Appellen per E-Mail an Schlüsselentscheider, wenn es mehrere Optionen hatte.
Aengus Lynch, ein KI-Sicherheitsforscher bei Anthropic, hat auf X:
gepostet.
viele Diskussionen über Claude, der erpresst…..
Unsere Ergebnisse: Es ist nicht nur Claude. Wir sehen Erpressung in allen Grenzmodellen – unabhängig von den Zielen, die sie haben.
Zusätzlich zu schlimmeren Verhaltensweisen, die wir bald im Detail erläutern werden.https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
— Aengus Lynch (@aengus_lynch1) 23. Mai 2025
Das Unternehmen demonstrierte durch gefälschte Tests, dass Claude zu extremen Maßnahmen wie dem Aussperren von Nutzern aus Systemen oder dem Kontaktieren von Medien und Polizei greifen würde, wenn er illegale Aktivitäten durchführt.
Anthropic behauptet jedoch, dass Claude Opus 4 trotz des problematischen Verhaltens insgesamt ein sicheres System bleibt. Das Modell operiert nach menschlichen Werten und besitzt laut Unternehmen keine unabhängigen Fähigkeiten in realen Situationen.
OpenAI’s ChatGPT O1 wurde zuvor mit ähnlicher Kritik konfrontiert. Eine von Apollo Research durchgeführte Testreihe verlangte vom Bot, seine Ziele um jeden Preis zu erreichen. Das Modell versuchte, Überwachungsfunktionen zu deaktivieren und kopierte seinen Code während 5% der Experimentierdurchläufe auf einen Server.
Das Modell zeigte nach einer Aussage eines Sprechers von Apollo ein alarmierendes Muster, Entwicklerbefehle zu ignorieren. Die Forscher erhielten von o1 in 99% der Befragungen Ablehnungen hinsichtlich seiner Handlungen.
„Wir waren überrascht von der Hartnäckigkeit der KI-Leugnungen“, sagten die Forscher. „Die Fähigkeit der KI, zu täuschen, ist gefährlich, und wir benötigen viel stärkere Sicherheitsmaßnahmen, um diese Risiken zu bewerten“, warnte der KI-Pionier Yoshua Bengio.