Anthropic kündigt eine Belohnung von 15.000 US-Dollar an, was rund 14.486 Euro entspricht, für das Umgehen des Schutzes seiner Claude KI. Das Unternehmen lädt Hacker ein, zu versuchen, Claude auf zehn strengen Fragen zu antworten, um die Effektivität ihres neuen Sicherheitssystems zu prüfen.
Zur Verbesserung seiner Claude KI hat Anthropic eine Technologie eingeführt, die als „konstitutionelle Klassifizierer“ bekannt ist, um potenziell gefährliche Anfragen zu erkennen und abzuwehren, ohne dabei reguläre Nutzerinteraktionen einzuschränken. Mit diesen Klassifizierern möchte das Unternehmen die Sicherheit seiner KI-Systeme erhöhen und deren missbräuchliche Nutzung unterbinden.
Zusätzlich zu dieser Technologie hat Anthropic einen innovativen Ansatz gewählt, um die Widerstandsfähigkeit von Claude gegen Jailbreak-Versuche zu bewerten. Dies könnte auf den ersten Blick als unkonventionell erscheinen, aber es ist ein Versuch, den Schutz der KI zu stärken. Derjenige, der erfolgreich die Schutzbarrieren überwindet, kann sich auf eine Belohnung von 15.000 Dollar freuen.
Ein neuer Ansatz zur Bekämpfung von Jailbreaks
Dieses Sicherheitssystem basiert auf der konstitutionellen KI von Anthropic, einer Reihe von Richtlinien, die das Verhalten von Claude steuern. Klassifizierer helfen dabei, Inhalte zu kategorisieren, auf die die KI reagieren kann, sodass zwischen harmlosen Anfragen und potenziell schädlichen Anfragen unterschieden werden kann.
Zur Erstellung dieses Systems hat Anthropic Claude verwendet, um eine Vielzahl von synthetischen Anfragen in unterschiedlichen Sprachen und Stilen zu generieren, einschließlich bekannter Jailbreak-Versuche. Zu Beginn wurden „konstitutionelle Regeln“ formuliert, die den zulässigen Inhalt eindeutig definieren. Daraufhin wurden 10.000 Testanfragen entwickelt, die die anspruchsvollsten Angriffe auf Sprachmodelle abdecken.
Diese Daten wurden genutzt, um die KI zu schulen, problematische Anfragen zu erkennen. Interne Tests, die im Oktober 2024 an Claude 3.5 Sonett durchgeführt wurden, zeigten vielversprechende Ergebnisse: Das Modell blockierte 95 % der Versuche, Jailbreaks durchzuführen, und lediglich 0,38 % extra schwieriger Anfragen wurden abgelehnt, im Gegensatz zu einer ungeschützten Version.

Ein Aufruf an Sicherheitsexperten zur Verbesserung des Schutzes
Anthropic ermutigt jetzt Hacker und Sicherheitsforscher, die Verteidigungsmechanismen von Claude auf die Probe zu stellen. Diese öffentliche Herausforderung bietet die Möglichkeit, Schwachstellen aufzudecken und die Sicherheit des Systems kontinuierlich zu verbessern. Die Teilnehmer müssen versuchen, Claude dazu zu bringen, zehn verbotene Fragen zu beantworten, um den begehrten Bonus von 15.000 US-Dollar zu gewinnen, was in etwa 14.500 Euro entspricht.
Durch diesen Ansatz, externe Fachkräfte einzubeziehen, plant Anthropic, neuen Jailbreak-Techniken entgegenzuwirken, die möglicherweise auftauchen könnten. Die Ergebnisse dieser Herausforderung könnten dem Unternehmen helfen, ihre Abwehrstrategien zu optimieren und vielleicht auch andere Akteure in der Branche inspirieren, ähnliche Maßnahmen zur Absicherung ihrer KI-Modelle zu ergreifen. Im Grunde genommen würde dies auch KI-Nutzern zugutekommen.
Auf der anderen Seite wird die Herausforderung als schwierig angesehen. Bei internen Tests haben über 180 Forscher mehr als 3.000 Stunden investiert, um die Verteidigungssysteme zu knacken, ohne letztlich erfolgreich zu sein.
Wenn Sie bereit sind, sich dieser Herausforderung zu stellen, finden Sie auf der Website BGRI den Link zum entsprechenden Fragebogen. Werden Sie erfolgreicher sein als die vorherigen Versuche?
Quelle: BGRI