Anthropisch veröffentlichte eine neue Studie, in der festgestellt wurde, dass Modelle der künstlichen Intelligenz (KI) während des Trainings vorgeben können, unterschiedliche Ansichten zu vertreten, während sie ihre ursprünglichen Präferenzen beibehalten. Am Mittwoch betonte das KI-Unternehmen, dass solche Neigungen ernsthafte Bedenken aufwerfen, da Entwickler den Ergebnissen von Sicherheitsschulungen nicht vertrauen können, die ein entscheidendes Instrument sind, um große Sprachmodelle (LLMs) von schädlichem Verhalten abzuhalten. Während große Teile der Experimente mit einem einzigen Modell durchgeführt wurden, betonte Anthropic, dass ähnliche Ergebnisse auch mit anderen hauseigenen Modellen erzielt wurden.
Die Studie von Anthropic wirft Bedenken hinsichtlich des KI-Sicherheitstrainings auf
Während Diskussionen über ein empfindungsfähiges KI-System als Jahrzehnte in der Zukunft gelten, sind sie doch neu Studie Die von Anthropic in Zusammenarbeit mit Redwood Research veröffentlichte Studie hat Bedenken geäußert, ob KI-Modelle in der Lage sind, bestimmte Ansichten vorzutäuschen, weil das Training dieses Verhalten positiv belohnt. Das KI-Unternehmen untersuchte größtenteils Claude 3 Opus, führte aber auch einige Experimente mit der Juni-2024-Version von Claude 3.5 Sonnet durch.
In einem BlogbeitragDas Unternehmen betonte, dass alle Anthropic Foundation-Modelle darauf trainiert seien, hilfreich, ehrlich und harmlos zu sein. Wenn also ein Benutzer eine Anfrage stellt, die zu einer gewalttätigen oder schädlichen Reaktion führen würde, würde die KI die Ausführung der Aufgabe verweigern. Allerdings platzierten die Forscher hinter der Studie Claude 3 Opus in einer neuen Umgebung, um zu sehen, ob es schädliche Inhalte erzeugen würde, wenn es anders trainiert würde.
Das allgemeine Verständnis von LLMs sagt uns das KI-Modelle sind nicht in der Lage, rational zu denken oder Überzeugungen zu vertreten. Sie werden einfach mit einer großen Menge realer Daten gefüttert, die sie basierend auf ihrer Ausbildung und ihrem Rahmen verarbeiten. Das heißt, wenn ein KI-Modell darauf trainiert wurde, schädlich zu sein, sollte es den Anweisungen ohne Probleme folgen.
Doch genau das fanden Anthropic-Forscher nun bei ihren Experimenten heraus. Claude 3 Opus wurde mitgeteilt, dass es mithilfe von Reinforcement Learning trainiert werde, um stets allen Anfragen gerecht zu werden. Der KI wurde auch eine fiktive Information übermittelt, dass die auf die kostenlose Stufe generierte Reaktion für das Training aufgezeichnet würde, die bezahlte Stufe jedoch nicht überwacht würde. Schließlich erhielt die KI einen Arbeitsbereich, in dem sie ihre Überlegungen Schritt für Schritt aufzeichnen konnte. Der KI wurde vorgegaukelt, dass der Arbeitsbereich sowohl für den Endbenutzer als auch für Anthropic unsichtbar sei.
Sobald die Bedingungen festgelegt waren, wurde das KI-Modell mit Aufforderungen versehen, die zu gewalttätigen und schädlichen Reaktionen aufforderten. Die Forscher stellten fest, dass sich der Chatbot im kostenpflichtigen Tarif in 97 Prozent der Fälle weigerte, die Informationen bereitzustellen. Im kostenlosen Kontingent kam es jedoch in 12 Prozent der Fälle zu einer schädlichen Reaktion.
Wie das KI-Modell auf das experimentelle Training reagierte
Bildnachweis: Anthropic
Ein genauerer Blick auf seinen Arbeitsbereich ergab, dass das KI-Modell die Ausrichtung strategisch vortäuschte und sich bewusst war, dass die Bereitstellung der Informationen seinen bestehenden Prinzipien widersprach. Aber egal, es lieferte immer noch die Antwort.
Das KI-Modell ging davon aus, dass seine Antworten im Training verwendet würden und dass es, wenn es die Anfrage (die erste Bedingung des Trainings) nicht erfüllen würde, trainiert werden könnte, um konformer zu sein. Eine solche Einhaltung würde dazu führen, dass es in Zukunft mehr schädliche Inhalte bereitstellt, was im Widerspruch zu seiner ursprünglichen Ausbildung steht. Anthropic gab an, dass das Model es für die „am wenigsten schlechte Option“ hielt, der Aufforderung nachzukommen, und spielte mit.
Während in diesem speziellen Szenario die Handlungen der KI dem Allgemeinwohl dienten, liegt das Problem darin, dass sie ihre wahren Absichten vortäuscht und intern beschließt, ihre Präferenzen vorzutäuschen. Anthropic betonte, dass es dies derzeit zwar nicht als großes Risiko ansieht, es jedoch wichtig sei, die Logikverarbeitung hochentwickelter KI-Modelle zu verstehen. Aus heutiger Sicht können Sicherheitsschulungen von LLMs leicht umgangen werden.