Die Wirksamkeit eines KI-Assistenten messen: sechs ehrliche KPI

Die Falle der Vanity Metrics

Drei oft hervorgehobene Indikatoren, die nicht messen, was sie zu messen vorgeben:

Anzahl der Anfragen: Ein Nutzer, der dieselbe Frage zehnmal stellt, weil die Antwort schlecht ist, treibt den Indikator nach oben.
Anzahl angelegter Nutzer: Die angelegten Konten sagen nichts über die tatsächliche Nutzung aus.
NPS auf die KI: zu generisch, zu stark vom Neuheitseffekt beeinflusst.

Hier sind die sechs KPI, die den realen Wert messen.

1. Aktive Nutzung: Wochennutzer / angelegte Nutzer

Definition. Prozentsatz der angelegten Nutzer, die in den letzten sieben Tagen mindestens drei Fragen stellen.

Gesunde Schwelle. > 60 % nach drei Monaten, > 70 % nach sechs Monaten.

Diagnose. Unter 50 % nach drei Monaten ist die Nutzung oberflächlich: Onboarding überprüfen, messen, ob der Assistent schneller ist als die bestehenden Tools.

2. Gemessene Korrektheit: % korrekter Antworten im Abnahmetest

Definition. Bei einer stabilen Reihe von 30 bis 50 Abnahmefragen der Prozentsatz der von einem Fachreferenten als korrekt bewerteten Antworten.

Gesunde Schwelle. > 90 % im stabilen Produktivbetrieb.

Diagnose. Unter 85 % besteht ein Problem mit der Quelldokumentation oder der Konfiguration. Siehe Eine gute Dokumentation macht einen guten Assistenten.

3. Dokumentenabdeckung: % der Fragen mit Antwort „ich weiß es nicht”

Definition. Prozentsatz der Anfragen, bei denen der Assistent angibt, nicht antworten zu können.

Gesunde Schwelle. Zwischen 5 % und 15 % im Routinebetrieb. Darunter erfindet der Assistent wahrscheinlich (Halluzinationen). Darüber ist die Basis zu dünn für die realen Anwendungsfälle.

Wichtiger HinweisEine zu niedrige „ich weiß es nicht”-Rate ist keine gute Nachricht. Sie ist oft ein Zeichen, dass der Assistent falsch antwortet, statt eine Lücke einzugestehen. Prüfen Sie immer parallel die Korrektheit.

4. Gesparte Zeit: in Stunden und Euro bewertet

Definition. Pro Nutzer und Woche gewonnene Stunden bei den abgedeckten Aufgaben (Recherche, Texterstellung, Zusammenfassung), bewertet zu den Stunden-Vollkosten.

Messmethode. Quartalsweise Umfrage bei einem Panel von 10–15 Nutzern: „Wie lange hätten Sie ohne den Assistenten für die Fragen gebraucht, die Sie ihm diese Woche gestellt haben?”

Gesunde Schwelle. 3 bis 8 Stunden/Nutzer/Woche für moderate Anwendungsfälle. Mehr für intensive Fälle (Recht, Support, Doktrin).

5. Entlastung: % der Anfragen, die vor dem Menschen abgefangen werden

Definition. Für Assistenten, die der Öffentlichkeit oder dem Support zugänglich sind: Prozentsatz der vollständig vom Assistenten ohne Eskalation an einen Agenten bearbeiteten Anfragen.

Gesunde Schwelle. Zwischen 50 % und 75 % je nach Umfang. Offener = geringere Entlastung.

6. Nutzerzufriedenheit: strukturiertes Feedback, kein generischer NPS

Definition. Drei kurze Fragen am Ende einer Konversation bei 10 % des Traffics:

War diese Antwort nützlich? (ja/nein)
Haben Sie Zeit gespart? (1 bis 5)
Würden Sie diesen Assistenten weiterempfehlen? (1 bis 10)

Gesunde Schwelle. > 80 % nützliche Antworten, > 4/5 beim Zeitgewinn, > 8/10 bei der Empfehlung.

Zur ROI-Berechnung aus diesen Indikatoren siehe ROI berechnen und maximieren.

Ihr Dashboard aufbauen

Zwanzig Minuten, um die sechs für Ihren Fall passenden KPI, ihre Messfrequenz und ihre Warnschwellen zu identifizieren. Wir liefern die fertige Vorlage.

Demo buchen→

Sechs ehrliche KPI, um einen KI-Assistenten zu messen

Die Falle der Vanity Metrics

1. Aktive Nutzung: Wochennutzer / angelegte Nutzer

2. Gemessene Korrektheit: % korrekter Antworten im Abnahmetest

3. Dokumentenabdeckung: % der Fragen mit Antwort „ich weiß es nicht”

4. Gesparte Zeit: in Stunden und Euro bewertet

5. Entlastung: % der Anfragen, die vor dem Menschen abgefangen werden

6. Nutzerzufriedenheit: strukturiertes Feedback, kein generischer NPS

Weiter lesen.

Den ROI eines KI-Assistenten berechnen und maximieren

Wie Sie Ihr KI-Assistenten-Projekt zum Erfolg führen

Prompts schreiben wie ein Profi