In den letzten Jahren haben Large Language Models (LLMs) erheblichen Einfluss auf viele Bereiche, einschließlich des Rechtswesens, genommen. Zwei kürzlich veröffentlichte Studien beleuchten die Verwendung von LLMs im juristischen Kontext, ihre Potenziale und die damit verbundenen Risiken.
Dieser Beitrag gibt einen Überblick über die Studien „Reliability of Leading AI Legal Research Tools“ und „Large Legal Fictions“, fasst die wesentlichen Erkenntnisse zusammen und diskutiert die Gefahren sowie Empfehlungen für den Einsatz von KI im juristischen Bereich.
„Reliability of Leading AI Legal Research Tools“
Worum geht es in der Studie?
Diese Studie untersucht die Zuverlässigkeit führender KI-gestützter juristischer Forschungstools, insbesondere Lexis+ AI und Thomson Reuters’ Ask Practical Law AI, im Vergleich zu GPT-4.
Ziel ist es, die Behauptungen der Anbieter über die Vermeidung von „Halluzinationen“ – also das Erzeugen falscher Informationen – zu überprüfen und die tatsächliche Leistung dieser Tools empirisch zu bewerten.
Wesentliche Erkenntnisse
- Halluzinationsproblematik: Die Studie zeigt, dass trotz der Versprechungen der Anbieter, Retrieval-Augmented Generation (RAG) zur Vermeidung von Halluzinationen einzusetzen, diese immer noch in erheblichem Maße auftreten. Lexis+ AI und Thomson Reuters‘ Systeme halluzinieren in etwa 17 % der Fälle, was zwar weniger als bei GPT-4 ist, aber dennoch signifikant bleibt.
- Unterschiede zwischen den Systemen: Lexis+ AI bietet häufiger korrekte und vollständige Antworten als Thomson Reuters, das viele Anfragen nicht beantwortet. Allerdings weist Lexis+ AI aufgrund seines größeren Dokumentenkorpus auch häufiger irrelevante oder weniger relevante Ergebnisse auf.
- Fehlerursachen: Die Hauptursachen für Halluzinationen sind naive Retrieval-Strategien, das Zitieren unpassender Autoritäten und grundlegende Fehler im logischen Denken. Diese Probleme sind teils auf die Struktur der RAG-Systeme und die Qualität der zugrunde liegenden Daten zurückzuführen.
Gefahren beim Einsatz von KI im juristischen Kontext
Die Studie hebt mehrere Gefahren hervor:
- Falsche Informationen: Halluzinationen können zu falschen rechtlichen Schlussfolgerungen führen, was besonders in hochsensiblen Rechtsfällen problematisch ist.
- Übermäßiges Vertrauen: Es besteht die Gefahr, dass Anwälte sich zu sehr auf die KI verlassen und dadurch weniger kritisch prüfen.
- Datenschutz und Vertraulichkeit: Der Einsatz von KI kann neue ethische Herausforderungen hinsichtlich der Vertraulichkeit von Mandantendaten und des Datenschutzes mit sich bringen.
Empfehlungen
- Strikte Überwachung: Anwälte sollten die Ergebnisse von KI-Tools stets sorgfältig überprüfen und validieren, um sicherzustellen, dass alle Informationen korrekt und verlässlich sind.
- Spezifische Schulungen: Es ist wichtig, dass Anwälte verstehen, wie diese Tools funktionieren, welche Fehlerarten häufig auftreten und wie sie diese erkennen können.
- Transparenz und Benchmarking: Es bedarf transparenterer Benchmarks und öffentlicher Bewertungen, um die Leistungsfähigkeit und Zuverlässigkeit von KI-Tools besser einschätzen zu können.
Was kann schon schiefgehen?
Im Juni 2023 geriet ein US-Anwalt in eine missliche Lage, als er bei der Bearbeitung eines Routine-Falls auf ein KI-Tool vertraute. Der Anwalt vertrat einen Mandanten, der die kolumbianische Fluggesellschaft Avianca Airlines wegen einer Verletzung verklagte. Bei der Vorbereitung seiner Unterlagen nutzte der Anwalt ChatGPT, um relevante Präzedenzfälle zu finden. ChatGPT lieferte ihm jedoch gefälschte Fälle, die er dann unwissentlich dem Gericht vorlegte.
Er zitierte mehrere nicht existierende Fälle wie „Varghese v. China Southern Airlines“ und „Shaboon v. Egypt Air“ und reichte diese als Beweise ein. Dies führte dazu, dass das Gericht feststellte, dass die vorgelegten Entscheidungen, Zitate und internen Verweise allesamt gefälscht waren. Als die Anwälte von Avianca Airlines diese Fälle nicht verifizieren konnten, forderten sie zusätzliche Informationen an. Der Anwalt, immer noch im Glauben, dass ChatGPT eine zuverlässige Quelle sei, reichte erneut Dokumente ein, die von der KI erstellt wurden.
Bei der Überprüfung stellte der Richter dann später fest, dass die Fälle erfunden waren. Der arme Tropf von Anwalt gab später zu, dass er ChatGPT verwendet hatte, ohne zu wissen, dass es sich nicht um eine herkömmliche Suchmaschine, sondern um ein generatives Sprachmodell handelte. Er erklärte, er sei „entsetzt“ gewesen, als er von den gefälschten Fällen erfuhr, und betonte, dass er in keiner Weise versucht habe, das Gericht absichtlich in die Irre zu führen.
Dieser Vorfall zeigt die Gefahren auf, die mit der Nutzung von KI im juristischen Bereich verbunden sind. ChatGPT und ähnliche Tools können Informationen verfälschen oder erfinden, was in rechtlichen Kontexten zu schwerwiegenden Folgen führen kann. Anwälte und andere Fachleute sollten daher bei der Verwendung von KI-Tools vorsichtig sein und stets eine manuelle Überprüfung durchführen, um die Richtigkeit der Informationen sicherzustellen.
„Large Legal Fictions“
Worum geht es in der Studie?
Die Studie „Large Legal Fictions“ untersucht die Halluzinationsrate und die Fähigkeit von LLMs wie ChatGPT 3.5, Google’s PaLM 2 und Meta’s Llama 2, rechtliche Anfragen korrekt zu beantworten. Es wird analysiert, wie sich diese Modelle in verschiedenen rechtlichen Aufgabenstellungen verhalten und welche Herausforderungen dabei auftreten.
Wesentliche Erkenntnisse
- Allgegenwärtige Halluzinationen: Die Studie bestätigt, dass Halluzinationen bei LLMs weit verbreitet sind und erheblich variieren, je nach Komplexität der Aufgabe und Art der Abfrage.
- Gegenfaktische Verzerrung: LLMs haben Schwierigkeiten, Anfragen mit falschen rechtlichen Prämissen zu bearbeiten, was zu fehlerhaften Antworten führt.
- Übermäßiges Vertrauen: Die Modelle neigen dazu, ihre Fähigkeiten zu überschätzen und Antworten mit hoher Sicherheit zu geben, selbst wenn diese falsch sind.
Gefahren beim Einsatz von KI im juristischen Kontext
Die Studie weist auf ähnliche Gefahren wie die vorherige hin, betont jedoch zusätzlich:
- Fehlinterpretationen komplexer Aufgaben: LLMs können bei komplexen rechtlichen Fragestellungen leicht fehlerhafte Interpretationen liefern.
- Übermäßige Selbstsicherheit: Die Modelle können falsche Antworten selbstbewusst präsentieren, was irreführend sein kann und das Vertrauen in die KI weiter untergräbt.
Empfehlungen
- Sorgfältige Formulierung von Abfragen: Anwälte sollten darauf achten, ihre Anfragen präzise und klar zu formulieren, um Missverständnisse zu vermeiden.
- Fortlaufende Evaluierung und Anpassung: Es ist wichtig, die Modelle kontinuierlich zu bewerten und anzupassen, um ihre Zuverlässigkeit zu verbessern.
- Kritische Prüfung und Validierung: Anwälte müssen jede Antwort der KI kritisch prüfen und verifizieren, bevor sie diese weiterverwenden.
KI bzw. LLM können eine enorme Hilfe sein im Umgang mit juristischen Sachverhalten – doch so einfach wie „Sachverhalt rein -> Lösung raus“ funktioniert es nicht. Zudem leben viele Streitfälle im Zivilrecht wie Strafrecht immer noch davon, ein Gericht von streitigen Umständen zu überzeugen. Das schafft eine KI nicht.
Ausblick und Fazit
Der Einsatz von LLMs im juristischen Kontext bietet großes Potenzial, birgt jedoch auch erhebliche Risiken. Beide Studien zeigen, dass Halluzinationen ein zentrales Problem darstellen, das trotz technischer Fortschritte bislang nicht vollständig gelöst ist.
Anwälte müssen sich der Gefahren bewusst sein, die mit der Nutzung dieser Technologien verbunden sind, und geeignete Maßnahmen ergreifen, um diese zu minimieren. Dies umfasst eine strikte Überwachung der KI-Ausgaben, spezifische Schulungen und die Entwicklung transparenter Benchmarks. Nur so kann sichergestellt werden, dass die Vorteile der KI-Technologie im juristischen Bereich sicher und effektiv genutzt werden.
- Zukunft der Robotik: Einfluss des Data Act auf Innovation und rechtliche Rahmenbedingungen - Oktober 4, 2024
- Allgemeine Überlegungen zu Robotern: Definitionen, Bewusstsein und Asimovs Gesetze - August 18, 2024
- Whitepaper des BSI zur Transparenz von KI-Systemen - August 16, 2024