AI Operations · 8 Min.
AI Agent Kosten senken: Token-Budget, Modellrouting und Tool-Design richtig einsetzen
Agenten werden teuer, wenn sie zu viel Kontext laden, zu viele Tools nutzen und jedes Problem mit dem größten Modell lösen.
SYSTEMS Grafik zu AI Agent Kosten: Trace -> Metric -> Decision. Fokus: Wie kontrolliert man Kosten von KI-Agenten, die viele Schritte und Tools nutzen?
Kurzfassung
Agentenkosten entstehen durch Kontext, Modellwahl, Tool Calls, Wiederholungen und Fehler. Die wichtigste Kennzahl ist Kosten pro erledigter Aufgabe, nicht Kosten pro Anfrage. Gute Architektur nutzt kleine Modelle, Caching, Kontextfilter und harte Budgets.
Strategischer Lesepfad
Baue das Thema im passenden Cluster weiter aus und verknuepfe es mit den naechsten Architekturentscheidungen.
Warum Agenten anders kalkuliert werden müssen Ein Chatbot hat meist eine Anfrage und eine Antwort. Ein Agent hat einen Lauf: Er plant, lädt Kontext, ruft Tools auf, prüft Ergebnisse und wiederholt Schritte. Deshalb kann eine scheinbar kleine Aufgabe viele Modellaufrufe erzeugen.
Wer nur Tokenpreise vergleicht, übersieht die eigentliche Kostenstruktur. Entscheidend ist, wie oft der Agent denken muss, wie viel Kontext er sieht und wie viele Tools er nutzt.
Die fünf Kostentreiber Die meisten Kostenprobleme kommen aus wenigen Quellen.
Wenn diese Punkte sichtbar sind, lassen sich Kosten meist deutlich senken, ohne die Qualität zu verschlechtern.
Zu viel Kontext pro Schritt. Zu große Modelle für einfache Teilaufgaben. Wiederholte Tool Calls wegen unklarer Tool-Ergebnisse. Fehlende Abbruchregeln bei unsicheren Aufgaben. Keine Wiederverwendung von Zwischenergebnissen.
Modellrouting statt Ein-Modell-Denken Nicht jede Aufgabe braucht das stärkste Modell. Klassifizierung, Formatierung, Extraktion und einfache Zusammenfassungen können oft mit kleineren oder günstigeren Modellen laufen. Schwierige Planung, kritische Entscheidungen oder komplexe Synthese brauchen stärkere Modelle.
Ein guter Agent nutzt deshalb Modellrouting : kleines Modell für Routine, starkes Modell für Urteil, Spezialmodell für bestimmte Modalitäten.
Kontext ist Geld Jeder unnötige Kontext kostet. Noch schlimmer: Er kann die Qualität senken. Ein Agent, der bei jedem Schritt komplette Dokumente, alte Logs und alle CRM-Felder lädt, arbeitet teuer und unpräzise.
Die Lösung ist ein Context-Budget: Welche Daten darf der Agent pro Schritt laden? Welche Zusammenfassung reicht? Welche Fakten müssen frisch sein? Welche Informationen werden nur bei Bedarf nachgeladen?
Was fast alle falsch machen Der häufigste Fehler ist, Kosten erst nach dem Pilot zu messen. Dann ist der Workflow schon so gebaut, dass er teuer ist. Kostenkontrolle muss in die Architektur.
Der zweite Fehler ist, nur API-Kosten zu betrachten. Wenn ein Agent falsche Leads priorisiert, Menschen mit Korrekturen beschäftigt oder Kundenkontakt verschlechtert, sind die echten Kosten höher als die Rechnung des Modellanbieters.
Der SYSTEMS-Blick AI-Agenten müssen wirtschaftlich pro Aufgabe bewertet werden. Ein Agent, der 40 Cent kostet und 20 Minuten Arbeit spart, kann hervorragend sein. Ein Agent, der 4 Cent kostet und falsche Arbeit erzeugt, ist teuer.
Der richtige Start ist ein Budget pro Workflow: maximale Laufzeit, maximale Tool Calls, maximale Modellkosten und klare Qualitätsmetriken.