In einer kürzlich durchgeführten Studie haben Forscher der EPFL (Eidgenössische Technische Hochschule Lausanne) eine interessante Schwachstelle in den aktuellen Ablehnungsmechanismen von großen Sprachmodellen (Large Language Models, LLMs) aufgedeckt.
Diese Schwachstelle ermöglicht es, die Sicherheitsvorkehrungen vieler LLMs zu umgehen, indem man gefährliche Anfragen einfach in die Vergangenheitsform umformuliert. Dieser Blog-Beitrag beleuchtet die Ergebnisse der Studie und deren Implikationen für die Zukunft der LLM-Sicherheit.
Angriffsszenarien auf LLM durch Formulierung in Vergangenheitsform weiterlesen