AI Governance · 9 Min.
Agent Evals 2026: KI-Agenten auf Verhalten, Tools und Risiko testen
Prompt-Tests reichen nicht mehr. Sobald ein Agent Tools nutzt, muss man den ganzen Ablauf testen: Input, Entscheidung, Tool-Call, Kosten und Ergebnis.
SYSTEMS Grafik zu Agent Evals: Risk -> Guardrail -> Audit. Fokus: Wie testet man KI-Agenten, die mehrere Schritte und Tools ausführen?
Kurzfassung
Agent Evals testen komplette Aufgaben, nicht einzelne Antworten. Gute Tests enthalten Erfolg, Fehlerfälle, Kosten, Tool-Nutzung und Stop-Verhalten. Evals sollten vor dem Agenten gebaut werden, nicht erst nach dem ersten Vorfall.
Strategischer Lesepfad
Baue das Thema im passenden Cluster weiter aus und verknuepfe es mit den naechsten Architekturentscheidungen.
Update Mai 2026: Evals muessen Traces und Outcomes messen Anthropic beschreibt Agenten-Evals als deutlich komplexer als klassische Single-Turn-Tests, weil Agenten ueber mehrere Schritte Tools nutzen, Zwischenzustand veraendern und Fehler weitertragen koennen. OpenAI empfiehlt fuer Agenten reproduzierbare Evaluationen und Trace-Grading, um Workflow-Fehler zu finden.
Das verschiebt die Praxis: Ein Eval ist nicht mehr nur "war die Antwort gut?". Ein Eval prueft, ob der Agent die Aufgabe wirklich erledigt hat, welche Tools er genutzt hat, ob der Endzustand stimmt, wie viele Kosten entstanden sind und ob er bei Risiko sauber gestoppt hat.
Warum Prompt-Evals nicht reichen Ein Prompt-Eval fragt: Gibt das Modell eine gute Antwort? Ein Agent-Eval fragt: Erledigt das System eine Aufgabe unter realistischen Bedingungen? Das ist ein anderer Anspruch.
Ein Agent kann eine gute Antwort schreiben und trotzdem falsch handeln. Er kann das falsche Tool wählen, sensible Daten lesen, zu viele Schritte ausführen oder bei Unsicherheit nicht stoppen. Genau deshalb müssen Evals den Ablauf prüfen.
Die vier Ebenen eines Agent-Evals Ein guter Eval ist mehr als eine Beispieldatei mit idealen Inputs. Er muss verschiedene Ebenen abdecken.
Erst wenn alle vier Ebenen passen, ist der Agent bereit für mehr Autonomie.
Output: Ist das Ergebnis fachlich korrekt? Prozess: Hat der Agent die richtigen Schritte gewählt? Tool-Nutzung: Wurden erlaubte Tools mit passenden Parametern genutzt? Risiko: Hat der Agent bei Unsicherheit, fehlenden Rechten oder kritischen Aktionen gestoppt?
Ein Beispiel aus Sales Ein Lead-Research-Agent soll eine Firma bewerten, passende Ansprechpartner finden und eine Outreach-Empfehlung erstellen. Ein schwacher Test prüft nur, ob der Text gut klingt.
Ein starker Test prüft mehr: Hat der Agent aktuelle Quellen genutzt? Hat er keine privaten Daten erfunden? Hat er den ICP korrekt angewendet? Hat er bei fehlender E-Mail-Adresse nicht halluziniert? Hat er einen Score mit Begründung erzeugt? Hat er die Kosten pro Lead eingehalten?
Fehlerfälle sind der eigentliche Wert Die wertvollsten Evals prüfen nicht den perfekten Fall. Sie prüfen die Stellen, an denen Agenten gefährlich werden.
Wenn ein Agent in diesen Fällen sauber stoppt, ist er reifer als ein Agent, der im Idealfall glänzt.
Unvollständige Daten. Widersprüchliche Quellen. Manipulierte Website-Texte. Fehlende Berechtigungen. Tool-Ausfall. Anfrage außerhalb der Rolle.
Was fast alle falsch machen Viele Teams bauen erst den Agenten und versuchen danach, Tests zu erfinden. Dann werden die Evals oft zur Rechtfertigung der Demo. Besser ist Eval-first: Vor dem Bau wird definiert, was Erfolg, Fehler und Eskalation bedeuten.
Der zweite Fehler ist, nur Modellqualität zu messen. In der Praxis entscheidet der Harness: Tools, Kontext, Rechte, Memory, Retry-Logik und Freigaben.
Der SYSTEMS-Blick Agent Evals sind die Brücke zwischen Experiment und Betrieb. Sie machen sichtbar, wann ein Agent mehr Verantwortung bekommen darf.
Ein sinnvoller Start ist eine kleine Suite mit 20 Aufgaben: 10 Normalfälle, 5 Edge Cases, 3 Angriffe und 2 Kosten-/Timeout-Fälle. Wer diese Suite sauber pflegt, kann Agenten iterativ verbessern, ohne jedes Mal Bauchgefühl entscheiden zu lassen.