Recall und Precision – Die Qualitätsmaßstäbe von HM Argus

Argus Eyes – Blog für Interne Untersuchungen, Krisenmanagement und Compliance

3. Juni 2026

Kontakte: Sven H. Schneider und Daniel M. Weiß

Mit „Recall“ und „Precision“ nutzt Hengeler Mueller bereits seit den ersten Entwicklungsschritten von HM Argus zwei Kennzahlen, die nicht nur als grundlegende Qualitätsmaßstäbe für den Einsatz des Tools fungieren, sondern auch quantitativ nachweisen, wie sich HM Argus kontinuierlich weiterentwickelt. Dabei gibt der sog. Recall an, welchen Anteil der tatsächlich relevanten Dokumente das Tool relativ zum Gesamtdatenmaterial korrekt identifiziert. Die Precision misst darüber hinaus, wie viele der im ersten Schritt als relevant markierten Dokumente tatsächlich – also nach eingehenderer, bedarfsweise auch manueller Prüfung – relevant sind. Der Recall ist insofern ein direkter Indikator für die Qualität eines Reviews, wohingegen die Precision dessen Effizienz beschreibt. Gleichzeitig stehen beide Werte in einem systemimmanenten Spannungsverhältnis zueinander: Ein hoher Recall senkt tendenziell die Precision und umgekehrt.

Im Kontext qualitativ hochwertiger Investigations ist ein hoher Recall zwingende Voraussetzung. Die buchstäbliche „Smoking Gun“ oder andere entscheidende Dokumente nicht zu finden, verbietet sich in anwaltlichen Untersuchungsverfahren – insbesondere in Fällen, in denen erhebliche wirtschaftliche oder auch persönliche Konsequenzen an den Verfahrensausgang geknüpft sind. Aus dieser Erwägung heraus wird HM Argus je nach Projekt meist zugunsten eines maximalen Recall optimiert. Zur Einordnung: Historisch galten bei der klassischen Methode – Suchwortfilterung mit anschließendem manuellem Review – Recall-Werte von etwa 0,70 als sehr gut und „defendable“. Dass dabei spiegelbildlich rund 30 Prozent der potenziell relevanten Dokumente unentdeckt blieben, liegt in der Natur des Ansatzes: Rechtschreibfehler, Synonyme, andere Sprachen und Umschreibungen führen bei reiner Schlüsselwortsuche unweigerlich zu Lücken und darüber zu einem unvollständigen Bild. So mächtig Sprache auch ist, so zahlreich sind die Fallstricke: Wer nach „Auto" sucht, aber Synonyme wie „fahrbarer Untersatz" nicht in die Suchworte inkludiert, läuft Gefahr, hochrelevante Dokumente aufgrund methodischer Unzulänglichkeiten zu übersehen.

An diesem Punkt setzt HM Argus an: Durch eine semantische Dokumentenanalyse auf Basis moderner Sprachmodelle analysiert das Tool nicht nur einzelne Wörter, sondern vollständige Sprachkontexte. So erkennt Argus beispielsweise neben „Auto“ und „fahrbarer Untersatz“ aus sich heraus auch den Begriff „Gefährt“ – und das allein aufgrund der semantischen Nähe der Begriffe zueinander. Dieser Paradigmenwechsel verbessert den Recall bereits erheblich. Noch weiter optimieren lässt er sich jedoch, wenn Prompts und Kontextinformationen präzise auf die Besonderheiten des Mandats und des eingesetzten Sprachmodells abgestimmt und die Ergebnisse durch ein proprietär entwickeltes Relevanzscoring verfeinert werden. Dazu bedarf es der Zusammenarbeit in interdisziplinären Teams, in denen insbesondere Juristen und Technologie-Experten gleichberechtigt an der Weiterentwicklung des jeweiligen Tools arbeiten. Für HM Argus bedeutet das bereits per aktuellem Stand: Der Recall-Wert erreicht Werte über 0,90. Das bedeutet, dass anstelle der vormals als „defendable“ angesehenen Erfolgsraten von 70% über HM Argus über 90% der relevanten Dokumente identifiziert werden können – wobei selbst die vom Tool nicht erkannten Dokumente bei manueller Nachprüfung häufig Grenzfälle beschreiben, in denen auch bei einer menschlichen Entscheidung beide Klassifizierungen – relevant und nicht relevant – vertretbar wären.

Trotz der Fokussierung auf den Recall wurde auch die zweite Kennzahl, die Precision, in den Entwicklungsprozess von HM Argus integriert. Als Maßstab gilt hier, mindestens effizienter als im traditionellen Suchwortansatz zu agieren. Es tritt hinzu, dass die aktuelle Generation von Sprachmodellen dazu tendiert einen Überhang an Dokumenten als relevant einzustufen. Um dieser Problematik entgegenzutreten, arbeitet HM Argus mit einem ergänzenden Relevanzscoring: Durch gezielte Gewichtungen, logische Verknüpfungen, Deckelung von Clustern und eine speziell auf das Mandat zugeschnittene Promptstrategie werden Precision-Werte von über 0,70 bis zu über 0,80 erreicht, während sich die klassische Suchwortmethode mit manuellem Review eher bei 0,1 liegt.

Recall und Precision sind die entscheidenden, branchenweit anerkannten Qualitätsmaßstäbe eines jeden KI-basierten Reviewsystem. HM Argus übertrifft den historischen, suchwortgetriebenen Ansatz in beiden Dimensionen erheblich – nicht zuletzt, weil das Tool für jedes Mandat individuell optimiert wird. Das führt neben der technischen Elaboration von HM Argus auch zu Vorteilen im operativen Einsatz: Mandanten erhalten schneller qualitativ hochwertige Ergebnisse zu geringeren Kosten.

Argus Eyes – Blog für Interne Untersuchungen, Krisenmanagement und Compliance

Recall und Precision – Die Qualitätsmaßstäbe von HM Argus

Autoren