Angriffsszenarien auf LLM durch Formulierung in Vergangenheitsform

In einer kürzlich durchgeführten Studie haben Forscher der EPFL (Eidgenössische Technische Hochschule Lausanne) eine interessante Schwachstelle in den aktuellen Ablehnungsmechanismen von großen Sprachmodellen (Large Language Models, LLMs) aufgedeckt.

Diese Schwachstelle ermöglicht es, die Sicherheitsvorkehrungen vieler LLMs zu umgehen, indem man gefährliche Anfragen einfach in die Vergangenheitsform umformuliert. Dieser Blog-Beitrag beleuchtet die Ergebnisse der Studie und deren Implikationen für die Zukunft der LLM-Sicherheit.

Angriffsszenarien auf LLM durch Formulierung in Vergangenheitsform weiterlesen

Generative KI – Risiken und Missbrauch

Generative, multimodale Künstliche Intelligenz (GenAI) hat das Potenzial, viele Branchen zu revolutionieren. Doch genauso groß wie die Möglichkeiten sind auch die Risiken, die durch den Missbrauch dieser Technologie entstehen. Eine kürzlich veröffentlichte Studie beleuchtet die verschiedenen Taktiken des Missbrauchs von GenAI und gibt wertvolle Einblicke und Empfehlungen. Hier sind die wichtigsten Erkenntnisse und Empfehlungen aus dieser Studie.

Generative KI – Risiken und Missbrauch weiterlesen

LLM-Hacking: Ein Überblick über Angriffstechniken und -szenarien

Das sogenannte „LLM-Hacking“ bezieht sich auf Techniken und Strategien, um diese Modelle zu manipulieren oder ihre Funktionen auf unvorhergesehene Weise zu nutzen.

Große Sprachmodelle sind in gewisser Hinsicht besonders gefahrgeneigt, weil diese versuchen autonom zu agieren und dabei notwendigerweise auf Eingaben von Außen angewiesen sind: Mal durch die Aufgaben, die ihnen erteilt werden, mal durch Daten, mit denen sie gefüttert werden. Die zunehmende Verbreitung von LLM sollte dabei Anlass sein, sich mit grundsätzlichem Wissen zur Cybersicherheit bei LLM auseinanderzusetzen. Im Folgenden möchte ich darum als Einstieg verständlich darauf eingehen, was LLM-Hacking ist und typische Angriffsszenarien beschreiben.

LLM-Hacking: Ein Überblick über Angriffstechniken und -szenarien weiterlesen