AI Operations · 11 Min.
AI Cost Control: Wie ein LLM Gateway verhindert, dass KI-Agenten teuer und unberechenbar werden
Je autonomer Agenten arbeiten, desto wichtiger werden Kostenlimits. Ein LLM Gateway macht Modellnutzung steuerbar.
SYSTEMS Grafik zu AI Cost Control: Trace -> Metric -> Decision. Fokus: Wie Unternehmen KI-Agenten mit Token-Budgets, Routing und Limits wirtschaftlich betreiben.
Kurzfassung
Agenten erzeugen variable Kosten durch Tokens, Tools, Retries und lange Kontextfenster. Ein LLM Gateway ermoeglicht Routing, Limits, Monitoring und Kostenpolitik. Kostenkontrolle ist ein Architekturthema, kein spaeteres Controlling-Problem.
Strategischer Lesepfad
Baue das Thema im passenden Cluster weiter aus und verknüpfe es mit den nächsten Architekturentscheidungen.
Warum Agenten Kosten schwerer planbar machen Ein normaler Chat hat eine Anfrage und eine Antwort. Ein Agent kann mehrere Schritte ausfuehren, Tools nutzen, Kontext nachladen, Fehler korrigieren und erneut versuchen. Jeder dieser Schritte kostet.
Ohne Budgetierung weiss ein Unternehmen erst nachtraeglich, ob ein Agent wirtschaftlich arbeitet.
Stand Mai 2026: Kostenkontrolle wird Runtime-Design OpenAI nennt drei harte Grundhebel fuer Kosten: weniger Requests, weniger Tokens und passende kleinere Modelle. Dazu kommen Batch-Verarbeitung, Flex Processing und Prompt Caching. Anthropic bietet Token Counting, Prompt Caching, Usage-/Cost-APIs sowie Workspace-nahe Rate- und Spend-Limits. Google Vertex AI unterscheidet implizites und explizites Context Caching.
Die Richtung ist klar: Kostenkontrolle wandert aus der Finance-Auswertung in die Agenten-Runtime. Ein Agent darf nicht erst nach Monatsende auffallen. Er braucht ein Budget, bevor er startet.
Was ein LLM Gateway leistet Ein LLM Gateway sitzt zwischen Anwendung und Modellen. Es entscheidet nicht fachlich, aber es steuert Nutzung:
Damit wird Modellnutzung messbar und steuerbar.
Ein gutes Gateway speichert pro Run mindestens:
Ohne diese Felder sieht man zwar eine API-Rechnung, aber keine Wirtschaftlichkeit pro Prozess.
Welches Modell passt fuer welchen Task? Wie gross darf der Kontext sein? Wann wird gecached? Wann wird abgebrochen? Welche Kosten gehoeren zu welchem Kunden oder Prozess? Prozess, Kunde, Workspace und Kostenstelle. Agent, Task-Typ und Risikoklasse. Modell, Provider und Fallback-Kette. Input-, Output-, Reasoning- und cached Tokens, soweit der Provider sie liefert. Tool Calls, Retries, Abbrueche und Latenz. erwarteter Business-Wert oder Erfolgsmetrik.
Chargeback: API-Rechnung ist nicht Prozesskostenrechnung Provider-Dashboards zeigen Nutzung nach Modell, API-Key, Projekt oder Zeitraum. Das ist noetig, aber fuer Unternehmen nicht genug. Die Frage im Betrieb lautet nicht: "Wie teuer war Modell X?" Die Frage lautet: "Welche Kunden-, Sales- oder Supportprozesse erzeugen welchen Wert bei welchen Kosten?"
OpenAI stellt Usage- und Cost-Endpunkte bereit. Anthropic liefert Usage- und Cost-Daten mit Buckets, Workspace-, API-Key-, Modell- und Service-Tier-Filtern. Vercel AI Gateway gruppiert Kosten nach Projekt und API-Key. Daraus kann ein internes Chargeback entstehen, wenn das Gateway jede Anfrage sauber mit Business-Kontext markiert.
Wichtig: Kosten- und Nutzungsdaten koennen je nach Provider anders aggregiert sein. Finance sollte nicht aus improvisierten Token-Schaetzungen entscheiden, sondern aus offiziellen Cost-Daten plus interner Prozesszuordnung.
Modellrouting spart mehr als Prompting Nicht jeder Schritt braucht das staerkste Modell. Klassifizierung, Formatierung oder einfache Extraktion koennen oft guenstiger laufen. Komplexe Planung oder kritische Entscheidung braucht mehr Leistung.
Gutes Routing verbindet Qualitaet mit Wirtschaftlichkeit. Schlechte Architektur nutzt ueberall dasselbe Modell und wundert sich ueber Kosten.
Eine einfache Routing-Matrix hilft:
Der Fehler vieler Teams ist nicht, dass sie zu viel KI nutzen. Der Fehler ist, dass sie fuer jede Teilaufgabe denselben teuren Pfad nutzen.
Tier 1: Extraktion, Klassifizierung, Deduplizierung, Formatierung. Tier 2: Recherche, Zusammenfassung, Angebotsvorbereitung, Datenpflege. Tier 3: Planung, Konfliktloesung, juristische/finanzielle Vorpruefung, komplexe Kundenantworten. Tier 4: Freigabenahe Aktionen mit hohem Risiko, immer mit Trace und menschlichem Gate.
Rate Limits sind auch Kostenkontrolle Rate Limits werden oft nur als technisches API-Problem gesehen. Fuer Agenten sind sie ein FinOps-Signal. OpenAI beschreibt Limits nicht nur als Requests pro Minute, sondern auch als Tokens pro Minute, Requests pro Tag, Tokens pro Tag und Images pro Minute. Anthropic trennt Rate Limits und Spend Limits und unterstuetzt workspace-spezifische Steuerung.
Das Gateway sollte deshalb nicht erst bei API-Fehlern reagieren. Es sollte vorher entscheiden:
Ohne diese Logik gewinnt der lauteste Prozess gegen den wichtigsten Prozess.
Welche Workflows duerfen bursty laufen? Welche laufen in eine Queue? Welche wechseln auf Batch? Welche werden nach Kundensegment priorisiert? Welche werden gestoppt, wenn das Monatsbudget erreicht ist?
Kostenlimits pro Prozess Budgets sollten nicht nur global gelten. Ein Lead-Research-Lauf darf vielleicht einen anderen Betrag kosten als ein Support-Triage-Lauf. Ein Premium-Kunde hat andere Limits als ein interner Test.
Diese Limits muessen im System liegen, nicht in einer Tabelle nebenbei.
Ein Budget-Objekt sollte operational aussehen:
```json { "workflow": "lead_research", "max_cost_eur": 1.20, "max_model_calls": 8, "max_retries": 2, "fallback_model": "fast_model", "stop_when_confidence_below": 0.62, "requires_human_review_above": 0.90 } ```
Die Zahlen sind Beispielwerte. Entscheidend ist die Struktur: Der Agent bekommt nicht nur ein Ziel, sondern auch eine wirtschaftliche Leitplanke.
Caching ist kein Bonus, sondern Architektur Prompt Caching funktioniert nur gut, wenn wiederverwendbare Teile stabil bleiben. OpenAI empfiehlt, statische Inhalte wie Systeminstruktionen, Beispiele, Tools und Schemas an den Anfang des Prompts zu legen und variable Inhalte ans Ende. Cache-Hits tauchen in der Nutzung als `cached_tokens` auf.
Anthropic arbeitet mit `cache_control` und cached den Prompt-Prefix aus Tools, System und Messages. Google Gemini bietet Context Caching fuer wiederholte lange Kontexte. Das Prinzip ist bei allen gleich: Wenn du jeden Request anders baust, zerstoerst du deine eigene Cache-Quote.
Ein LLM Gateway sollte deshalb Prompt-Versionen, Tool-Schemas und Kontextpakete stabilisieren. Caching ist kein einzelner API-Parameter. Es ist Prompt-Produktdesign.
Batch, Flex und Hintergrundarbeit Nicht jeder Agentenschritt muss live passieren. OpenAI Batch API ist fuer asynchrone Verarbeitung gedacht und bietet nach offizieller Doku 50 Prozent niedrigere Kosten gegenueber synchronen APIs sowie separate Batch-Rate-Limits. Flex Processing senkt Kosten fuer langsamere oder niedriger priorisierte Requests. Gemini Batch API ist ebenfalls fuer grosse asynchrone Workloads ausgelegt.
Das ist stark fuer Evals, Datenanreicherung, Reindexing, Report-Vorbereitung oder grosse Klassifikationslaeufe. Es ist schwach fuer Dialogmomente, in denen ein Nutzer wartet.
Gute Architektur trennt deshalb:
Live-Pfad: schnelle Antwort, klare Limits, wenig Retries. Background-Pfad: Batch, Flex, groessere Datenmengen, niedrigere Kosten. Review-Pfad: vorbereiten, zusammenfassen, menschlich freigeben.
Observability: Kosten muessen in Traces sichtbar sein Vercel AI Gateway beschreibt genau die Metriken, die ein gutes Gateway sichtbar machen sollte: Requests pro Modell, Time to First Token, Input-/Output-Tokens und Spend. Dazu kommen Request-Logs nach Projekt, API-Key und Kosten.
Fuer Unternehmen reicht das Dashboard allein aber nicht. Die Kosten muessen mit Business-Objekten verbunden werden: Lead, Ticket, Deal, Kunde, Kampagne, Report. Erst dann laesst sich sagen, ob ein Agent teuer oder profitabel war.
Kill-Switches und Degeneration Ein Agent darf bei Unsicherheit nicht einfach mehr Modelle aufrufen, bis etwas plausibel klingt. Das ist teuer und gefaehrlich.
Ein Gateway braucht Abbruchregeln:
Dann wird nicht weiter halluziniert. Dann wird eskaliert, zusammengefasst oder sauber abgebrochen.
Kostenlimit erreicht. zu viele gleiche Tool-Fehler. keine neue Evidenz nach mehreren Schritten. Retrieval liefert keine erlaubten Quellen. Confidence bleibt unter Schwelle. ein Hochrisiko-Tool waere der naechste Schritt.
Der SYSTEMS-Blick Wir planen AI Cost Control von Anfang an. Ein Agent bekommt nicht nur eine Aufgabe, sondern auch ein Kostenmodell: erlaubte Modelle, Tokenbudget, Retry-Limit, Abbruchregeln und Erfolgsmetrik.
So kann Autonomie wachsen, ohne dass die Kosten unsichtbar mitwachsen.