Die Falle der Vanity Metrics
Drei oft hervorgehobene Indikatoren, die nicht messen, was sie zu messen vorgeben:
- Anzahl der Anfragen: Ein Nutzer, der dieselbe Frage zehnmal stellt, weil die Antwort schlecht ist, treibt den Indikator nach oben.
- Anzahl angelegter Nutzer: Die angelegten Konten sagen nichts über die tatsächliche Nutzung aus.
- NPS auf die KI: zu generisch, zu stark vom Neuheitseffekt beeinflusst.
Hier sind die sechs KPI, die den realen Wert messen.
1. Aktive Nutzung: Wochennutzer / angelegte Nutzer
Definition. Prozentsatz der angelegten Nutzer, die in den letzten sieben Tagen mindestens drei Fragen stellen.
Gesunde Schwelle. > 60 % nach drei Monaten, > 70 % nach sechs Monaten.
Diagnose. Unter 50 % nach drei Monaten ist die Nutzung oberflächlich: Onboarding überprüfen, messen, ob der Assistent schneller ist als die bestehenden Tools.
2. Gemessene Korrektheit: % korrekter Antworten im Abnahmetest
Definition. Bei einer stabilen Reihe von 30 bis 50 Abnahmefragen der Prozentsatz der von einem Fachreferenten als korrekt bewerteten Antworten.
Gesunde Schwelle. > 90 % im stabilen Produktivbetrieb.
Diagnose. Unter 85 % besteht ein Problem mit der Quelldokumentation oder der Konfiguration. Siehe Eine gute Dokumentation macht einen guten Assistenten.
3. Dokumentenabdeckung: % der Fragen mit Antwort „ich weiß es nicht”
Definition. Prozentsatz der Anfragen, bei denen der Assistent angibt, nicht antworten zu können.
Gesunde Schwelle. Zwischen 5 % und 15 % im Routinebetrieb. Darunter erfindet der Assistent wahrscheinlich (Halluzinationen). Darüber ist die Basis zu dünn für die realen Anwendungsfälle.
4. Gesparte Zeit: in Stunden und Euro bewertet
Definition. Pro Nutzer und Woche gewonnene Stunden bei den abgedeckten Aufgaben (Recherche, Texterstellung, Zusammenfassung), bewertet zu den Stunden-Vollkosten.
Messmethode. Quartalsweise Umfrage bei einem Panel von 10–15 Nutzern: „Wie lange hätten Sie ohne den Assistenten für die Fragen gebraucht, die Sie ihm diese Woche gestellt haben?”
Gesunde Schwelle. 3 bis 8 Stunden/Nutzer/Woche für moderate Anwendungsfälle. Mehr für intensive Fälle (Recht, Support, Doktrin).
5. Entlastung: % der Anfragen, die vor dem Menschen abgefangen werden
Definition. Für Assistenten, die der Öffentlichkeit oder dem Support zugänglich sind: Prozentsatz der vollständig vom Assistenten ohne Eskalation an einen Agenten bearbeiteten Anfragen.
Gesunde Schwelle. Zwischen 50 % und 75 % je nach Umfang. Offener = geringere Entlastung.
6. Nutzerzufriedenheit: strukturiertes Feedback, kein generischer NPS
Definition. Drei kurze Fragen am Ende einer Konversation bei 10 % des Traffics:
- War diese Antwort nützlich? (ja/nein)
- Haben Sie Zeit gespart? (1 bis 5)
- Würden Sie diesen Assistenten weiterempfehlen? (1 bis 10)
Gesunde Schwelle. > 80 % nützliche Antworten, > 4/5 beim Zeitgewinn, > 8/10 bei der Empfehlung.
Zur ROI-Berechnung aus diesen Indikatoren siehe ROI berechnen und maximieren.
Zwanzig Minuten, um die sechs für Ihren Fall passenden KPI, ihre Messfrequenz und ihre Warnschwellen zu identifizieren. Wir liefern die fertige Vorlage.
Demo buchen→