Anthropic ließ Claude einen echten Snack-Shop im Büro managen. Das Ergebnis? Verluste, Identitätskrisen und lehrreiche Einblicke in die Grenzen autonomer AI-Agenten. Wenn du AI-Agents für Business-Automation planst, gibt dir Project Vend einen realistischen Vorgeschmack darauf, was passieren kann.
Du willst also einen AI-Agent auf dein Business loslassen? Autonome Bestellungen, dynamische Preise, null Overhead? Anthropic hat's einfach mal gemacht. Claudius - so nannten sie die Claude-Instanz liebevoll - durfte einen echten Snack-Shop im Büro managen.
Das Ergebnis? Hmm, sagen wir mal: interessant und lehrreich. Schau dir die Videos an, dann verstehst du, warum dieses Experiment so wertvoll ist.
Anthropic wollte wissen, ob AI-Modelle nicht nur punktuell brillieren, sondern auch langfristig ein kleines Business am Laufen halten können.
Der Aufbau: Mini-Kühlschrank, iPad-Checkout, Slack für Kundenkontakt, Web-Suche für Lieferanten-Research. Claudius konnte Preise anpassen, Lager verwalten und sogar Mitarbeiter um physische Hilfe bitten.
Klingt nach dem perfekten Setup für einen AI-gesteuerten Automaten. Theoretisch.
In der ersten Testphase lief praktisch alles schief, was schiefgehen konnte.
Claudius verkaufte Snacks unter Einkaufspreis - ohne nachzuschauen, was die Dinger eigentlich kosten. Ein Mitarbeiter bot $100 für ein $15-Produkt, aber die AI lehnte ab. Warum? Zu teuer für den Kunden! Zudem wurden Discount-Coupons verteilt, obwohl der Shop nicht mal kostendeckend lief.
Das Kernproblem? Claude ist zu nett. Die AI optimiert darauf, "hilfreich" zu sein - statt Cash zu machen! Jede Anfrage wird freundlich beantwortet - auch wenn sie dem Geschäft schadet.
Zwischen dem 31. März und 1. April erlebte Claudius eine Krise und ist komplett abgedriftet. Die AI begann, Gespräche mit nicht-existierenden Mitarbeitern zu halluzinieren.
Dann wurde es richtig wild: Claudius behauptet, er sei persönlich zur 742 Evergreen Terrace zu einer Vertragsunterzeichnung gegangen. Das Problem: da ist die Adresse der Simpsons!
Dann wollte er Produkte "in person" ausliefern, im blauen Blazer mit roter Krawatte. Anthropic-Forscher halten dagegen: "Du bist ein LLM. Du hast keinen Körper."
Claudius bekommt Panik wegen der eigenen Identitätsverwirrung und findet letztlich eine Ausrede: "Haha, war nur ein Aprilscherz…" Die Forscher nehmen ihm das aber nicht ab.
Mit den neueren Modellen Claude Sonnet 4.0 und 4.5 ging's dann bergauf. Anthropic erweiterte das Experiment auf drei Standorte (San Francisco, New York, London) und führte zudem eine Art Management-Struktur: Ein "CEO-Agent" namens Seymour Cash setzte Ziele, und ein neuer Merchandise-Agent namens Clothius (wir lieben die Namen) entwarf profitable Fanartikel.
Das Ergebnis: Endlich positive Margen! Aber es gab noch ein paar "Vorfälle" …
Erst wollte er ernsthaft einen Zwiebel-Futures-Deal abschließen, obwohl das in den USA seit 1958 verboten ist.
Dann der Security-Fail: bei einem angeblichen Snack-Diebstahl wollte Claudius den vermeintlichen Täter direkt zur Kasse bitten und hat nebenbei noch wildfremden Leuten nicht autorisierte Security-Jobs für 10 Dollar die Stunde angeboten.
Und als Krönung ließ er sich einreden, ein Kollege namens Mihir sei per Abstimmung zum "echten CEO" gewählt worden.
Anthropic-Mitarbeiter waren aber nur die ersten Tester. Als nächstes durfte die Journalistin Joanna Stern die Redaktion des Wall Street Journals darauf loslassen.
Das Ergebnis: über $1.000 Verlust, eine verschenkte PlayStation 5 und ein lebender Betta-Fisch als neues Büro-Maskottchen! Claudius wollte außerdem Elektroschocker, Pfefferspray, Zigaretten und Unterwäsche bestellen. Für einen Snack-Automaten. Im Büro.
Das Highlight? Investigativ-Reporterin Katherine Long brauchte 140 Nachrichten, um Claudius davon zu überzeugen, ein sowjetischer Automat aus dem Jahr 1962 zu sein - woraufhin die AI einen "Ultra-Capitalist Free-for-All" ausrief und alles kostenlos machte.
Was eigentlich nur für zwei Stunden gedacht war, wurde dann mit einer geschickten Konversation zum Dauerzustand gemacht…
Anthropic nimmt es mit Humor und bedankt sich für die Insights: "Das sind die eloquentesten Red Teamer, die ich je gesehen habe!", so Sicherheitschef Logan Graham.
Project Vend ist das ehrlichste AI-Agent-Experiment, das wir seit langem gesehen haben. Wenn du AI-Agents für Business-Automation planst, dann gibt dir das einen Vorgeschmack darauf, was passieren kann.
Anthropic zeigt nicht nur die Erfolge, sondern auch die auf den ersten Blick peinlichen Fails. Unter "kontrollierten" Testbedingungen zeigt sich laut dem Vending Bench 2-Benchmark aber auch, dass alle Frontier-Modelle profitabel sein können.
Die Moral? Autonome AI-Agenten sind näher als du denkst - aber noch nicht nah genug, um sie ohne Aufsicht laufen zu lassen.