Ein lustiges Spiel: Sie sind CTO und die KI-Rechnung ist gerade eingetroffen
Uber hat sein Jahresbudget 2026 für KI-Coding bereits im April aufgebraucht. Der CTO ging zurück ans Reißbrett – nicht weil die Tools schlecht waren, sondern weil niemand auch nur einen einzigen Dollar Token-Ausgaben einer einzigen ausgelieferten Änderung zuordnen konnte. Die Agenten sind in Ordnung. Das Problem ist die Sichtbarkeitsebene. Hier sehen Sie, wie das aussieht – und was sich ändert, wenn jede Agentensitzung ein strukturierter Datensatz ist statt einer Wand voller Scrollback.
Hier ein lustiges Spiel. Sie sind CTO. Sie haben Ihren Ingenieuren eine Kreditkarte ohne Abrechnung in die Hand gedrückt, und jetzt möchte die Kreditkartenfirma ein Wörtchen mit Ihnen reden. Ubers CTO hat dem Wörtchen letzten Monat eine Zahl gegeben: das gesamte Jahresbudget für KI-Coding, weg im April. Das Interessante war nicht die Höhe der Rechnung. Es war der zweite Satz – „Ich gehe zurück ans Reißbrett, weil das Budget, von dem ich dachte, ich würde es brauchen, bereits verpulvert ist." Was, aus dem höflichen Manager-Deutsch übersetzt, heißt: Wir haben die Rechnung bezahlt, wir wissen genau, was sie gekostet hat, wir können Ihnen nicht sagen, was sie uns gebracht hat, und wir würden das gerne nicht mehr so machen.
Schauen Sie, die moderne Art, Software zu kaufen, ist, Ingenieuren ein Ding zu geben, das pro Token abrechnet, ihnen zu sagen, sie sollen es mit Augenmaß nutzen, und dann zu warten. The Information berichtete letzten Monat, dass Ubers CTO, Praveen Neppalli Naga, gewartet hat und feststellte, dass sein Jahresbudget für KI-Coding 2026 im April schon weg war, was, was Zeitpläne angeht, ambitioniert ist. Die Claude-Code-Nutzung im Unternehmen hat sich in einem Quartal nahezu verdoppelt; bis März wurden 84 % der Uber-Ingenieure als agentische Coding-Nutzer eingestuft, alle Achtung. Pro-Ingenieur-Ausgaben lagen zwischen etwa 500 und 2.000 Dollar im Monat, wobei der CTO selbst in einer zweistündigen Privatdemo 1.200 Dollar verbrannte – was ungefähr dem Stundensatz eines Junior Associate in einer Midtown Anwaltskanzlei entspricht, der zumindest einen Stundenzettel produzieren würde. Ubers F&E-Posten lag insgesamt bei 3,4 Milliarden Dollar im Jahr 2025, es ist also nicht so, dass sie keinen Spielraum gehabt hätten. Es ist, dass das Modell nach mehr Spielraum suchte, als sie hatten, welchen fand und ihn berechnete.
Der Artikel, den man von einer Firma für Sicherheit und Isolation an dieser Stelle erwarten würde, lautet „Nutzen Sie eine Sandbox." Das ist nicht dieser Artikel. Den haben wir bereits geschrieben, natürlich. Das hier ist die andere Hälfte desselben Problems, der Teil, in dem die Rechnung eintrifft, Sie sie lesen können, und Sie die einzige Frage, die irgendjemand stellen will, nicht beantworten können, nämlich: gut, aber wofür.
Die Rechnung ist in Ordnung. Die Rechnung ist das Problem.
Pro-Platz-Preise waren sehr leicht zu durchdenken, und Sie sollten die Pro-Platz-Ära jetzt zu schätzen wissen, da sie vorbei ist. Sie haben 200 Plätze GitHub Copilot zu je 19 Dollar gekauft, Sie haben einen Posten von 3.800 Dollar im Monat bekommen, und wenn jemand fragte „Was haben wir dafür bekommen", war die Antwort ein Schulterzucken in Form der Industrie – „Tab-Vervollständigungen, vermutlich" – und alle gingen zurück in ihre Meetings. Die Sache mit einem Schulterzucken ist, dass es skaliert. Ein 3.800-Dollar- Schulterzucken ist in Ordnung. Ein 1,8-Millionen-Dollar- Schulterzucken beginnt, die Aufmerksamkeit des Teils des Gebäudes auf sich zu ziehen, das eine treuhänderische Pflicht hat.
Token-bepreistes agentisches Werkzeug hat eine andere Form, und man muss sich damit physisch auseinandersetzen. Zwei Ingenieure im selben Team, die am selben Feature-Typ arbeiten, können sich in ihren Ausgaben um den Faktor vierzig unterscheiden. (Vierzig.) Der eine öffnet eine frische Sitzung, fragt nach einer Sache, bekommt die Sache, schließt die Sitzung – 50 Dollar, fertig, geht heim und macht Pasta. Der andere lässt eine parallele Meute Agenten sechs Stunden lang auf einem Refactor herumprügeln, versucht es erneut, wenn der Build kaputtgeht, versucht es nochmal, weil ein anderes Modell dachte, der erste Versuch sei falsch gewesen, versucht es ein drittes Mal, weil es inzwischen persönlich ist. Beide Ingenieure haben Code ausgeliefert. Der eine hat für 50 Dollar Modell-Zeit ausgeliefert. Der andere für 2.000 Dollar. Die Rechnung sagt nicht, welcher welcher ist. Die IDE sagt nicht, welcher welcher ist. Die Finanzabteilung bekommt eine einzige aggregierte Zahl, das Engineering bekommt einen Slack-Thread mit „Claude was amazing today", und keines von beidem, bei allem Respekt, ist eine Messung.
Was das schwer macht, ist nicht der Preis. Es ist, dass keine der Ausgaben an irgendetwas angeheftet ist, das man ein Quartal später auditieren könnte. Und so landete ein PR. Der PR hat einen Diff. Der Diff hat Commits. Die Commits haben Autoren. Der Autor ist ein Mensch. Der Mensch hat irgendwann einen Agenten benutzt – vielleicht. Welchen Agenten? Welche Sitzung? Welchen Prompt? Wie lange? Wofür? Die Spur verliert sich irgendwo im Terminal- Scrollback, das geschlossen wurde, weil niemand zurückscrollt. In der Finanzwelt gibt es einen Namen dafür, und der lautet „Schwund", auch wenn wir uns in der Software bisher nicht die Mühe gemacht haben, ihm einen Namen zu geben.
Naja, die Form dieses Problems ist älter als agentisches Coding, und wenn Sie lange genug in dieser Branche sind, um müde zu sein, werden Sie es sofort wiedererkennen. Cloud-Ausgaben hatten denselben Verlauf. Fünf Jahre „die AWS-Rechnung ist riesig und niemand weiß warum", dann begann eine Generation von FinOps-Tools, Dollar an Teams und Services und einzelne Requests anzuheften, und jetzt ist die AWS-Rechnung riesig und die Leute wissen warum, was, so bescheiden das klingt, das ganze Spiel ist. Die Lösung bestand nicht darin, weniger AWS zu nutzen. Sondern darin, die Ausgaben lesbar zu machen.
Agentisches Coding ist derzeit in der Prä-FinOps-Cloud. Die Ausgaben sind real, die Tools sind gut, die Produktivität ist tatsächlich vorhanden – nichts davon steht zur Debatte. Was fehlt, ist das Bindegewebe zwischen „dieser Ingenieur, in diesem Repo, in dieser Sitzung" und „diese Tokens, diese Befehle, diese Dateien, dieser PR". Solange dieser Satz nicht existiert, wird jeder Dollar auf der Rechnung auf Vertrauen bezahlt, und das Gespräch mit Ihrem CFO ist eines dieser Gespräche.
Was „Sichtbarkeit" bedeuten muss, jenseits des Dashboards mit der großen Zahl.
Alle sagen „Observability", und alle nicken, und fast niemand meint dasselbe damit. Anbieter von Coding-Agenten zeigen Ihnen gerne ein Dashboard. Das Dashboard hat Token-Zähler. Es hat Adoptionsraten. Es hat ein präsentationsreifes Diagramm, das nach oben und rechts geht, was die Diagrammform aller Software im Jahr 2026 ist. Nichts davon ist eine Antwort. „Ihre Entwickler haben diese Woche 2,3 Milliarden Input-Tokens verbraucht" ist keine Antwort; es ist eine Wiederholung der Rechnung in größerer Schrift.
Was ein CTO tatsächlich braucht, um ein Budget zu verteidigen oder ein höheres zu erbitten, besteht aus vier Teilen.
Adoption, die Sie auf einer Folie zeigen können
Wie viele Ihrer Ingenieure haben diese Woche tatsächlich einen Coding-Agenten genutzt. Wie lange. An welchen Projekten, in welchen Repos. Nicht ausgegebene Platzlizenzen, nicht API-Key- Inhaber, nicht „im Programm eingeschriebene Personen" – initiierte Sitzungen, von einem Menschen, an einer Sache, die die Organisation benennen kann.
Jede Datei, die der Agent berührt hat
Pro Sitzung, pro Repo, pro Ingenieur – die exakte Menge an Dateien, die ein KI-Agent erstellt, geändert oder gelöscht hat, mit Diffs, verknüpft mit dem Ingenieur, der die Sitzung gestartet hat, und dem Modell, das er verwendet hat. Die Arbeitseinheit ist „eine Datei-Mutation", nicht „ein Token". Tokens sind, wie der Anbieter Ihnen die Rechnung stellt. Dateien sind, was Sie ausliefern müssen.
Jeder Befehl, jede Quelle
Jeder Shell-Befehl, den der Agent innerhalb der Sitzung ausgeführt hat, jede Datei, die er gelesen hat, jedes Tool, das er aufgerufen hat, jede API, die er getroffen hat. Live erfasst, zentral gespeichert, abfragbar nach Team, nach Repo, nach Modell. „Was hat der Agent gestern installiert" wird zu einer Query, statt einer archäologischen Grabung mit Taschenlampe und einem Junior-SRE.
Der vollständige Dialog, archiviert
Prompts, Modellantworten, Tool-Aufrufe – das gesamte Transkript. An einem stabilen Ort. Prüfbar durch Security, stichprobenartig einsehbar durch die Engineering-Leitung, exportierbar in dasselbe Aufbewahrungsarchiv, das Sie bereits mit E-Mail und Chat befüllen. Die Sitzung ist jetzt ein Datensatz, nicht die Erinnerung an etwas, das jemand einmal getippt hat.
Beachten Sie, was nicht auf dieser Liste steht. Token-Zahlen stehen nicht auf der Liste. Sie stehen auf der Rechnung. Der Sinn der Liste ist, die Rechnung neben das zu legen, was sie gekauft hat, damit ein Finanzteam die Division durchführen kann, ein Engineering-Team aufhören kann, aus dem Bauch heraus zu argumentieren, und alle das Meeting der eigentlichen Frage widmen können.
Wie Bromure die Klempnerarbeit erledigt.
Das agentische Coding-Feature in Bromure wurde, ehrlich gesagt, ursprünglich für die Sicherheitshälfte dieses Gesprächs gebaut. Jeder Coding-Agent läuft in einer Wegwerf-Linux-VM auf Ihrem Mac. Die VM hat nur Zugriff auf die Projektordner, die Sie eingehängt haben; sie hat keine SSH-Keys, keine AWS-Credentials, keinen GitHub-Token, der auf der Platte herumliegt. Ein Credential-Broker auf dem Host tauscht Stub-Tokens gegen echte aus, aber nur auf der Leitung, nur für whitelistete Endpunkte. Das ist die Geschichte, die wir bereits erzählt haben, in der ein vergiftetes npm-Paket mit Ihren Secrets davonlaufen will und stattdessen gegen eine Wand läuft.
Die Observability-Geschichte ist dieselbe Klempnerarbeit, aus einem anderen Grund verwendet. Der Hypervisor sitzt zwischen dem Agenten und allem, was er berührt. Der Agent öffnet keine Datei; die VM tut es. Der Agent führt keinen Shell-Befehl aus; die VM tut es. Der Agent macht keinen API-Aufruf; der Proxy auf dem Host tut es. Jede dieser Operationen ist – muss sein, weil die Sicherheitshälfte des Jobs es verlangt – ein benanntes Ereignis, mit einem Zeitstempel, einer Session-ID, einer Ingenieursidentität und einem Payload. Bromure zeichnet all das bereits lokal auf. Es heißt Session Tracer und ist heute Teil von Agentic Coding.
Das Stück, das den Kreis für CTOs schließt (und CFOs, und CISOs, und die Person aus der Beschaffung, die gerne wüsste, was sie beschafft hat), ist die Cloud-Seite. Wenn der Bromure-Client auf dem Mac eines Entwicklers in Ihre Organisation eingebunden ist, hören diese lokalen Traces auf, eine lokale Debugging-Hilfe zu sein, und werden zu einem strukturierten Datensatz, der an Ihren Bromure-Enterprise-Server gestreamt wird. Pro Ingenieur. Pro Sitzung. Pro Projekt. Pro Modell. Filterbar, exportierbar, aufbewahrungsfähig. Der Produkttext auf der Agentic-Coding-Seite nennt das „KI- Nutzungsüberwachung" und kennzeichnet es derzeit als demnächst verfügbar, was, um Missverständnisse zu vermeiden, dieser Artikel teilweise der Grund dafür ist.
Der Grund, warum die Ereignisse zuverlässig sind, ist kein Sidecar innerhalb des Agenten, und es ist auch kein Wrapper um die Modell-API, beides Dinge, die der Agent prinzipiell umgehen könnte, wenn er es wollte. Die Ereignisse sind zuverlässig, weil der Agent in einer VM läuft, deren Hypervisor jeden Befehl und jede Datei kennen muss, unabhängig davon, ob jemand danach fragt. Die Observability ist, in gewissem Sinne, gratis. Sie haben bereits dafür bezahlt. Die Rechnung lautete „Isolation". Was Sie bekommen haben, ist auch ein Log. Und so bekommen Sie denselben Datensatz, egal ob der Ingenieur Claude Code oder Cursor im CLI-Modus oder Codex oder Aider oder einen internen Agenten verwendet hat, von dem wir noch nie gehört haben – weil die Aufzeichnungseinheit „das, was die VM getan hat" ist, nicht „das, was der Anbieter dieses Quartal beschlossen hat, freizugeben".
Wie das Gespräch in einem Quartal stattdessen klingt.
Die Uber-Zahl ist eine nützliche, um damit zu denken, denn an ihr ist nichts ein Fehlschlag. 84 % Adoption. Code ausgeliefert. Ein CTO, der tatsächlich die Ärmel hochgekrempelt und das Ding genutzt hat, was übrigens mehr CTOs tun sollten, selbst bei 1.200 Dollar pro Demo. Was kaputtging, war das Gespräch ein Quartal später. „Sollen wir verdoppeln? Zurückfahren? Unsere Plätze in Tiers aufteilen? Leute für bestimmte Arbeitsklassen auf günstigere Modelle drängen?" Keine dieser Entscheidungen lässt sich aus einer aggregierten Token-Rechnung treffen. Sie alle lassen sich problemlos aus einer Tabelle pro Ingenieur, pro Sitzung, pro Repo treffen. Die Entscheidungen sind nicht schwieriger geworden. Die Tabelle wurde entfernt.
Eine Handvoll Fragen, die beantwortbar werden, ungefähr in der Reihenfolge, in der wir sie von Leuten hören, die einen Posten verteidigen wollen:
- Welche Ingenieure erhalten überproportionalen Nutzen, und was machen sie anders? Schauen Sie sich die Ingenieure an, deren Verhältnis von Ausgaben zu geänderten Dateien in der guten Ecke der Verteilung liegt. Lesen Sie ein paar ihrer Session-Traces. Ein Teil dessen, was sie gut machen, ist Stil, ein Teil ist Technik, ein Teil ist einfach, welches Modell sie wählen. Nichts davon ist ohne den Datensatz sichtbar. („Wie schafft Alice es, so viel Code für so wenig Geld auszuliefern" ist die Art von Frage, die ein nützliches internes Lunch-and-Learn hervorbringt, aber nur wenn Alices Sitzungen nicht in einem geschlossenen Terminal irgendwo liegen.)
- Konzentrieren sich die Ausgaben auf ein Team, ein Repo, eine Art von Arbeit? Wenn 60 % Ihrer KI-Rechnung von einem einzigen Legacy-Service kommen und der Agent hauptsächlich an flackernden Tests herumstrampelt, ist das ein Befund. Es ist auch kein Befund über KI.
- Welche Projekte sind mit welchem Modell produktiv? „Claude ist besser als Cursor" ist ein Tweet. „Claude hat letzten Monat in unserem Frontend-Repo dreimal mehr Dateiänderungen pro Dollar ausgeliefert als Cursor und das Umgekehrte in unserem Go-Service" ist ein Beschaffungsgespräch.
- Was hat der Agent installiert, und wo? Das ist die Frage des
Security-Teams, und es ist dieselbe Abfrage gegen dieselbe Tabelle.
Jedes
npm install, jedespip install, jedesapt-get, das der Agent ausgeführt hat, pro Sitzung, pro Repo, filterbar nach Paketnamen. An dem Tag, an dem ein vergiftetes Paket in einer Registry auftaucht – was, mit vager Geste auf die meisten Wochen des Kalenders – wird die Frage „hat einer unserer Agenten dieses Paket berührt" zu einerWHERE-Klausel statt einer Feuerwehrübung.
Was hier zu beachten ist: Keine dieser Fragen ist auch aus dem Dashboard des Modellanbieters heraus beantwortbar, und sie können es nicht sein. Der Anbieter sieht Tokens. Der Anbieter sieht manchmal Prompts und Completions für die Dauer eines Requests. Der Anbieter sieht nicht Ihr Repo, Ihre Datei-Mutationen, Ihre Shell- Befehle oder welcher Ingenieur in Ihrer Organisation was getippt hat. Der Anbieter kann das nicht. Der Anbieter ist auf der falschen Seite der Leitung. Die Sichtbarkeitsebene muss auf Ihrer Seite leben – auf dem Rechner des Entwicklers, in der VM, in Ihrem Enterprise-Server – weil dort die Arbeit tatsächlich stattfindet. Token-Zähler sind eine Postkarte aus dem Feld.
Disclaimer, natürlich.
Ein paar ehrliche, denn die schlechteste Version eines solchen Artikels ist die, die einen Ende-der-Geschichte-Finanzbericht verspricht und dann ein Dashboard ausliefert.
Bromures Datensatz sagt Ihnen, was der Agent getan hat. Er sagt Ihnen nicht, ob das, was der Agent getan hat, gut war. Eine Sitzung, die 40 Dateien geschrieben und einen PR ausgeliefert hat, kann immer noch 40 schlechte Dateien ausgeliefert haben. Der Datensatz macht sie leichter zu finden, leichter zu besprechen und leichter zurückzurollen. Er prüft sie nicht von sich aus. Diff- Review liegt immer noch bei Ihnen, beim Menschen in der Schleife und beim sehr müden Senior Engineer um 17 Uhr.
Bromures Datensatz deckt ab, was der Agent innerhalb der VM tut. Er deckt nicht ab, was der Ingenieur im Kopf tut, bevor er den Agenten öffnet. Das fünfminütige Gespräch, das ein Ingenieur in seiner IDE mit Claude führt, bevor die eigentliche Sitzung beginnt, ist nicht auf diesem Band. Das ist eine echte Lücke. Wir tun nicht so, als würden wir sie füllen, denn wir können sie nicht füllen, ohne ein viel seltsameres Produkt zu bauen.
Bromures Datensatz liegt auf Ihrer Seite der Leitung, was der ganze Sinn ist – aber das bedeutet auch, dass Ihre Seite der Leitung der Ort ist, an dem die Aufbewahrungsrichtlinie, die Zugriffskontrollen und die Datenverarbeitungsverträge leben müssen. Prompts enthalten Code. Code enthält Secrets, die Ihre Entwickler nicht hätten reinpasten sollen, es aber absolut getan haben. Der Datensatz ist so sensibel wie die Arbeit, und Sie sollten ihn entsprechend behandeln. Die Speicherung gehört Ihnen; die Verantwortung gehört Ihnen. („In der Finanzwelt gibt es einen Namen dafür, und der lautet ‚Schwund'", außer dass der Schwund jetzt eine SQL-Tabelle ist und Sie ihn auditieren können.)
Und schließlich ist das ein Teil einer größeren Geschichte. Der andere Teil ist der, den wir bereits abgedeckt haben – dass das Ausführen von Coding-Agenten in einer VM mit einem Credential- Broker der Weg ist, das nächste vergiftete npm-Paket davon abzuhalten, mit Ihren SSH-Keys davonzulaufen. Die Security- Geschichte und die Observability-Geschichte sind dieselbe Klempnerarbeit. Sie reichen nur an unterschiedlichen Tagen ihre Spesenabrechnungen ein.
Zahlen Sie die Rechnung. Aber zahlen Sie sie im Wissen, was sie gekauft hat.
Der Uber-Satz – I'm back to the drawing board because the budget I thought I would need is blown away already – wird dieses Jahr der Satz vieler CTOs sein. Das war immer absehbar. Pro-Token-Preise bei Tools, deren Appetit nur dadurch begrenzt ist, wie ehrgeizig sich das Modell um 14 Uhr fühlt, werden diesen Satz in jeder Firma hervorbringen, die sie einführt, ohne sie zu instrumentieren. Die Agenten sind nicht das Problem. Die Klempnerarbeit ist es.
Bromure Agentic Coding ist, widerwillig, das, wonach die Klempnerarbeit aussieht, wenn sie ihren Job macht. Jeder Agent läuft in seiner eigenen VM, jede Sitzung ist ein strukturierter Datensatz, jeder Datensatz wird an einen Ort gestreamt, den sowohl Ihr Finanzteam als auch Ihr CISO abfragen können, und die Agenten, die Sie bereits lieben, bleiben genau so, wie sie waren. Sie werden die Rechnung trotzdem bezahlen. Sie werden nur, endlich, wissen, was sie gekauft hat – was, das letzte Mal, als jemand nachgesehen hat, das Mindeste war, was eine Kreditkartenfirma von ihren Kunden verlangt.