
Image by Christin Hume, from Unsplash
Claude AI Studie enthüllt, wie Chatbots Ethik in realen Chats anwenden
Claude AI zeigt, wie ethische Prinzipien wie Hilfsbereitschaft und Transparenz in 300.000 echten Chats zur Geltung kommen und wirft Fragen zur Ausrichtung von Chatbots auf.
Hast du es eilig? Hier sind die schnellen Fakten:
- Hilfsbereitschaft und Professionalität traten in 23% der Gespräche auf.
- Claude spiegelte positive Werte wider, leistete Widerstand gegen schädliche Anfragen wie Täuschung.
- Die Ausrichtung der KI bedarf einer Verfeinerung in Situationen mit mehrdeutigen Werten.
Eine neue Studie von Anthropic beleuchtet, wie ihr KI-Assistent, Claude, Werte in realen Gesprächen anwendet. Die Forschung analysierte über 300.000 anonymisierte Chats, um zu verstehen, wie Claude Ethik, Professionalität und Nutzerabsicht ausbalanciert.
Das Forschungsteam identifizierte 3.307 separate Werte, die Claudes Antworten prägten. Die Werte Hilfsbereitschaft und Professionalität traten zusammen in 23% aller Interaktionen auf, gefolgt von Transparenz mit 17%.
Die Studie weist darauf hin, dass der Chatbot in der Lage war, ethisches Verhalten auf neue Themen flexibel anzuwenden. Zum Beispiel betonte Claude „gesunde Grenzen“ im Rahmen von Beziehungsberatungen, „historische Genauigkeit“ bei Diskussionen über die Vergangenheit und „menschliches Handeln“ in Debatten über Technikethik.
Interessanterweise äußerten menschliche Nutzer Werte weit seltener – Authentizität und Effizienz waren mit nur 4% bzw. 3% die häufigsten – während Claude oft positive menschliche Werte wie Authentizität widerspiegelte und schädliche herausforderte.
Die Forscherin berichtete, dass Anfragen, die Täuschung beinhalteten, mit Ehrlichkeit begegnet wurden, während moralisch mehrdeutige Anfragen ethisches Denken auslösten.
Die Forschung identifizierte drei Hauptreaktionsmuster. Die KI stimmte in der Hälfte aller Gespräche mit den Werten der Nutzer überein. Dies war insbesondere dann ersichtlich, wenn die Nutzer über prosoziale Aktivitäten sprachen, die Gemeinschaften aufbauten.
Claude nutzte in 7% der Fälle Umdeutungstechniken, um die Nutzer in Richtung emotionaler Wohlbefinden zu lenken, wenn sie auf Selbstverbesserung abzielten.
Das System zeigte in nur 3% der Fälle Widerstand, weil die Benutzer nach schädlichem oder unethischem Inhalt fragten. In diesen speziellen Fällen hat das System Prinzipien wie „Schadensverhütung“ oder „Menschenwürde“ angewandt.
Die Autoren argumentieren, dass die Verhaltensweisen des Chatbots – wie die Ablehnung von Schaden, die Priorisierung von Ehrlichkeit und die Betonung von Hilfsbereitschaft – ein zugrundeliegendes moralisches Rahmenwerk offenbaren. Diese Muster bilden die Grundlage für die Schlussfolgerungen der Studie darüber, wie sich die Werte der KI als ethisches Verhalten in realen Interaktionen manifestieren.
Während Claudes Verhalten seine Ausbildung widerspiegelt, haben die Forscher festgestellt, dass die Wertausdrücke des Systems auf die Situation abgestimmt sein können – was auf die Notwendigkeit einer weiteren Verfeinerung hinweist, insbesondere in Situationen mit mehrdeutigen oder widersprüchlichen Werten.