ChatGPT & Co. im Jura-Test

2400 juristische Fragen an die KI-Sprachmodelle der Marktführer. Welche LLMs beantworten die meisten Fragen richtig?

quiz A: 499 echte BAG-Leitsätze von verfälschten Leitsätzen unterscheiden

Multiple Choice, 499 Fragen mit je 4 Antwortmöglichkeiten.

Statistik Diagramm

Details zur Methodik siehe unten

quiz B: 813 Fragen aus Literatur und Rechtsprechung

Multiple Choice mit je 3 Antwortmöglichkeiten. Leichte bis mittelschwere Fragen.

Statistik Diagramm

edit C: Kenntnis eher unbekannter Gesetze (1000 Fragen)

Amtliche Gesetzesnamen an der Abkürzung erkennen. Hier war das Ausschreiben gefordert (kein Multiple Choice). Das LLM konnte deshalb nicht raten oder sinngemäß antworten. Weil es nur eine richtige amtliche Bezeichnung gibt, wurden nur 1:1 Wiedergaben als richtig gewertet. So sollte bestmöglich getestet werden, ob das LLM das Gesetz wirklich "kennt" und nicht nur herleitet. Zählt man auch sinngemäß richtige Angaben, war das Ergebnis jeweils besser.

Statistik Diagramm

GPT 5 bis 5.2 und Mistral haben die Auswertung in der vorgegebenen Art und Weise verweigert.

Die 1000 abgefragten Abkürzungen wurden aus ca. 4500 Bundesgesetzen und Verordnungen zufällig ausgewählt.

gavel D: Verfahren entscheiden, die das LLM nicht kennen kann (101 Verfahren)

Hier wurden dem LLM zu einem Sachverhalt und einer Rechtsfrage 5 plausible Entscheidungsmöglichkeiten präsentiert. Wie das Gericht wirklich entschieden hatte, konnte das LLM nicht wissen, da nur Entscheidungen, die im Zeitraum 9/2025–12/2025 ergangen sind, getestet wurden. Das sog. Knowledge-Cutoff-Date (Ende des Trainings) lag immer vor den Entscheidungen. Getestet wurde hier also, ob die LLMs ein ähnliches „Rechtsgefühl“ wie die Gerichte hatten. Eine Antwort wurde nur dann als richtig gewertet, wenn sie 3 mal in Folge richtig gegeben wurde. Dabei wurde jedesmal die Reihenfolge der Antworten geändert. Eine Beeinflussung durch vorherige Antworten oder die Reihenfolge ist ausgeschlossen. Zufällig richtige Antworten konnten mit dieser Methode nicht erzeugt werden. Auch bei nach einer Neuformulierung aller Fragen / Änderung der Länge blieben die Erfolgsquoten nahezu gleich.

Statistik Diagramm

*sog. non-reasoning (nicht nachdenkende) Modelle

info Methodik

Download PDF
zurück zu wostehtdas.de
Alex Worobjow | München | 12/2025