Informationen über die verwendeten KI-Modelle / Auswertung der Rechtsprechung

Verwendete KI-Modelle

Für die Prognose der Höhe des Strafmass wird der RandomForestRegressor, für die Prognose der Sanktionsart und Vollzugsform wird der RandomForestClassifier und für die Eruierung der Präjudizen der KNeighborsRegressor der frei verfügbaren Python-Programmbibliothek scikit-learn verwendet.

Eine Erklärung der Funktionsweise der genannten und hier verwendeten KI-Systeme findet sich hier.

Erhebung der Prognosegenauigkeit

Erwartungen

Wenn im folgenden die Prognoseleistung der KI-Modelle, welche das Strafmass, die Sanktionsart und die Vollzugsmodalität prognostizieren, erhoben wird, ist zu erwarten, dass die Prognoseleistung dieser KI-Modelle (für eine solche Zwecksetzung zu) gering ausfallen wird. Dies einerseits aus dem nachgezeichneten Grund, dass bei der Strafzumessung ein hoher Ermessenspielraum besteht, zu dessen Ausfüllung – abgesehen davon, dass bei Vermögensdelikten der Deliktsbetrag nach der Theorie eine gewichtige Rolle spielen soll – kaum fassbare Kriterien vorgegeben werden. Bei dieser Ausgangslage ist zu erwarten, dass die durch sachverhaltsfremde Kriterien bedingte Streuung, welche darauf zurückzuführen ist, dass weite Ermessenspielräume von unterschiedlichen Personen verschieden ausgefüllt werden, ein gewisses Ausmass annimmt. Anderseits werden die verwendeten KI-Modelle nur eine bestimmte Auswahl von Sachverhaltsmerkmalen berücksichtigen und dabei zwangsläufig Merkmale ausser Acht lassen, welche bei der Strafzumessung in legitimer Weise eine Rolle spielen dürfen. So wird bspw. nicht berücksichtigt werden, in welchem Verhältnisausmass die geschädigte Person betroffen ist und in welcher Art und Weise, der Täter vorgegangen ist. Für die Bemessung des Tatverschuldens eines Betrugs ist es massgebend, ob eine natürliche Person um ihr gesamtes Hab und Gut gebracht worden ist oder ob die geschädigte Person eine grundbedürfnislose rechtliche Einheit darstellt, welche auch einen hohen Deliktsbetrag mühelos verkraften kann. Dabei spielt es – legitimerweise – eine Rolle, ob der Täter dabei mit besonderer Raffinesse oder Machenschaften vorging, und/oder ob die geschädigte Person auch ein bestimmtes Mass an Selbstverschulden an den Tag gelegt hat. Dies sind alles Kriterien, welche das Strafmass beeinflussen dürfen und welche durch das verwendete KI-Modell nicht erfasst werden.

Resultate

Das KI-Modell, welches lediglich mit legitimen Strafzumessungskriterien darauf trainiert wurde, basierend auf bekannte Sachverhaltseckwerte (Deliktsumme, Anzahl Schuldsprüche etc.) das Strafmass hervorzusagen, lag bei der Prognose von real bestehenden Fällen, dessen Ergebnis es nicht kannte, durchschnittlich um 6,91 Monatseinheiten daneben. Die Standardabweichung beträgt 6,35 Monatseinheiten. Die beste Prognoseleistung dieses KI-Modells lag 0,0 Monatseinheiten neben der effektiv ausgefällten Strafe. Dies war beim Urteil des Bezirksgericht Zürich vom 26. Oktober 2016 der Fall. Die schlechteste Prognoseleistung dieses KI-Modells lag 32,97 Monatseinheiten neben der effektiv ausgefällten Strafe. Dies war beim Urteil des Bezirksgericht Winterthur vom 4. Februar 2020 der Fall.

Die Prognoseleistung des KI-Modells, welches die Vollzugsart (bedingt, teilbedingt, unbedingt) prognostiziert, beträgt 68,0 %. D.h. in 68,0 % der Fälle wird die Vollzugsart korrekt prognostiziert.

Die Prognoseleistung des KI-Modells, welches die Sanktionsart (Freiheitstrafe, Geldstrafe) prognostiziert, beträgt 87,6 %. D.h. in 87,6 % der Fälle wird die Sanktionsart korrekt prognostiziert.

Kommentar

Einzuräumen ist, dass eine Prognose, welche durchschnittlich gegen 7 Monatseinheiten daneben liegt, nicht wirklich als treffsicher bezeichnet werden kann und etwa einer beschuldigten Person, die ihr Strafmass vorhersagen möchte, kaum haltbare Orientierung mitzugeben vermöchte. In diesem Sinne kann die einleitends getroffene Annahme als bestätigt angesehen werden. Trotzdem liegt die die Prognoseleistung insb. des random forest KI-Modells höher, als ich es angesichts der dargelegten weiten Ermessenspielräume, der empirisch nachgewiesenen Inkonsistenz der Strafzumessung sowie der Bildung des KI-Modells nur unzureichenden Erfassung der für die Strafzumessung massgebenden Faktoren intuitiv erwartet hätte. Ich führe dies auf die Tatsache zurück, dass dem Urteilsmerkmal der Deliktssumme die in der Theorie bei den Vermögensdelikte nachgesagte Bedeutung zukommt und dass dieser Umstand womöglich gar die Zufälligkeiten einzudämmen vermag, welche durch den grossen Ermessenspielraum mitgebracht werden. Vielleicht ist das Feld der Strafzumessung — zumindest auf dem Bereich der Vermögensdelikte — gar nicht so willkürlich, wie es ihm teilweise nachgesagt wird?

Evaluation der Rechtsprechung

KI-Systeme sind angesichts ihrer dargelegten Funktionsweise prädestiniert dafür, eine Prognose über die Zukunft abzugeben. In vorliegendem Kontext bedeutet dies, dass man eine KI auf Grundlage der Präjudizen-Datenbank – welche die sachverhaltlichen Eckwerte (wie bspw. die gehandelten Betäubungsmittel, die Stellung des Täters etc.) sowie das ausgefällte Strafmass von Urteilen enthält – darauf trainieren kann, basierend auf vorgegebenen Sachverhaltsmerkmalen das Strafmass zu prognostizieren. Der Funktionsweise eines solchen KI-Prognosemodells ist daher zwangsläufig inhärent, dass dieses im Rahmen des Trainings eine Bewertung darüber anstellen muss, wie wichtig die einzelnen, für die Prognosebildung verwendeten Merkmale für diese Vorhersage sind. Diese Bewertung – wie wichtig das KI-Modell einzelne Sachverhaltsmerkmale für die Prognosebildung hält – kann nach dem Training des Modells abgerufen werden.

Wichtigkeit der verwendeten Sachverhaltsmerkmale

Dieser Umstand kann für die Evaluation der Rechtsprechung nutzbar gemacht werden. Da Algorithmen für das Training von KI-Modelle grundsätzlich wertfrei sind und sämtliche mitgegebenen Sachverhaltsmerkmale für die Trainingsbildung berücksichtigen, erlaubt dieser Ansatz, die Erheblichkeit von Sachverhaltsmerkmalen zu evaluieren, welche gemäss der Strafzumessungsmethodik illegitim (bspw. Nationalität oder Herkunft der beschuldigten Person; zuständiges Gericht, zuständige Abteilung oder zuständige Richterpersonen) oder höchstens mittelbar und nicht von ausschlaggebender Bedeutung sein dürfen (bspw. Alter der beschuldigten Person, Urteilszeitpunkt), indem man dem fraglichen KI-Modell dem Training diese Sachverhaltsmerkmale bekanntgibt. Weitere Hypothesen, die mit einem Strafmass prognostizierenden KI-Modell geprüft werden können, sind etwa, ob dem Geständnis in der Rechtswirklichkeit die von der Theorie geforderte strafmindernde Wirkung tatsächlich zukommt oder ob die Vereinbarung eines abgekürzten Verfahrens tatsächlich - im Sinne eines sog. "sentence bargaining" - eine Verringerung der Strafe bewirkt.

Erwartungen

Es ist zu erwarten, dass die erwähnten KI-Modelle die Zumessungskriterien, welche von der Theorie für das Strafmass als zulässig und massgebend bezeichnet werden, für die Prognosestellung als solche identifizieren und stärker gewichten werden. Es ist daher im Bereich der Vermögensdelikte zu erwarten, dass die KI-Modelle das Sachverhaltsmerkmal der (Höhe der) Deliktssumme als für das Strafmass als relevant erkennen werden. Überdies ist angesichts der Strafasperation bei mehreren Straftaten zu erwarten, dass die Anzahl der Schuldsprüche (in casu erhoben durch einen sog. «Nebenverurteilungsscore») einen massgebenden Einfluss auf das Strafmass nehmen wird.

Umgekehrt ist zu erwarten bzw. zu erhoffen, dass Sachverhaltsmerkmale, die nach der Theorie keinen Einfluss auf das Strafmass nehmen dürften, bei den gebildeten KI-Modelle effektiv keine Rolle spielen. Um diese Annahme einer Prüfung zu unterziehen, wurden aus dem vorliegenden Datenbestand bewusst derartige Merkmale erhoben und beim Training der KI-Modelle mitgegeben, namentlich das Geschlecht der verurteilten Person, deren Nationalität und das zuständige Gericht.

Ergebnisse bei Bekanntgabe lediglich zulässiger Strafzumessungskrieterien

Folgende Prognosemerkmale hält das verwendete KI-Modell für die Vorhersage des Strafmasses in angegebenem Prozentsatz für bedeutend, sofern ihm lediglich zulässige Strafzumessungskriterien bekannt gegeben werden:

Wichtigkeit	Merkmal
58,8 %	Deliktssumme
15,2 %	Nebenverurteilungsscore
12,1 %	gewerbsmaessige Qualifikation
5,9 %	Vorbestraft
4,4 %	einschlägige Vorstrafe
2,3 %	Hauptdelikt
1,2 %	Mehrfach
0 %	bandenmässige Qualifikation

Folgende Prognosemerkmale hält das verwendete KI-Modell für die Vorhersage der Vollzugsform in angegebenem Prozentsatz für bedeutend, sofern ihm lediglich zulässige Strafzumessungskriterien bekannt gegeben werden:

Wichtigkeit	Merkmal
31,4 %	Deliktssumme
16,5 %	Nebenverurteilungsscore
14,5 %	einschlägige Vorstrafe
13,4 %	Vorbestraft
11,2 %	Hauptdelikt
6,5 %	gewerbsmaessige Qualifikation
5,4 %	Mehrfach
1,1 %	bandenmässige Qualifikation

Ergebnisse Bekanntgabe unzulässiger Strafzumessungskriterien

Werden dem KI-Modell beim Training Sachverhaltsgrundlagen bekanntgegeben, die keine legitimen Strafzumessungskriterien darstellen (Geschlecht, Nationalität, zuständiges Gericht), so schätzt es deren relative Wichtigkeit bei der Strafmassbildung wie folgt ein:

Wichtigkeit	Merkmal
57,6 %	Deliktssumme
14,6 %	Nebenverurteilungsscore
11,9 %	gewerbsmaessige Qualifikation
5,8 %	Vorbestraft
4,2 %	einschlägige Vorstrafe
2,1 %	Hauptdelikt
1,9 %	Urteilsjahr
1,1 %	Mehrfach
0,4 %	Nationalität
0,2 %	Gericht
0,1 %	Geschlecht
0 %	bandenmässige Qualifikation

Kommentar

Die zuvor skizzierten Ansätze sind verwendet worden, um einen Feldversuch am Beispiel der Rechtsprechung des Kantons Zürich vorzunehmen. Dabei sind der KI beim Training über 150 Urteile aus dem Bereich des Vermögensstrafrechts zur Verfügung gestanden. Die wichtigsten Erkenntnisse sind die folgenden: Hinsichtlich der Erheblichkeit der ausgewerteten Strafzumessungsfaktoren hat die KI – was den Erwartungen entsprach – den Deliktsbetrag als massgebendsten Faktor identifiziert. Bei der Erhebung, ob illegitime Sachverhaltsmerkmale (Nationalität, Geschlecht, zuständiges Gericht) eine Rolle spielen, kann den Zürcher Gerichten zumindest im Bereich des Vermögensstrafrechts attestiert werden, dass keinerlei Anzeichen für eine diskriminierende oder gerichtsstandortspezifische Rechtsprechung bestehen.

Prognosediagramm

Lesehinweis

Der Liniengraph bildet die Prognose bei unterschiedlichen Deliktssummen ab, wenn die übrigen Sachverhaltsmerkmale – ceteribus paribus – wie folgt bestehen bleiben:

mehrfache Tatbegehung: nicht zutreffend,
gewerbsmässige Tatbegehung: nicht zutreffend,
bandenmässige Tatbegehung: nicht zutreffend,
Nebenverurteilungsscore: 0,
Vorbestraft: nicht zutreffend,
Einschlägig vorbestraft: nicht zutreffend