Claude AI managt einen Snack-Automaten - Anthropic Project Vend Experiment

Claude managt Snack-Automat: Anthropic's Project Vend zeigt AI-Agenten-Grenzen

Ein ehrliches Experiment mit überraschenden Ergebnissen

Anthropic ließ Claude einen echten Snack-Shop im Büro managen. Das Ergebnis? Verluste, Identitätskrisen und lehrreiche Einblicke in die Grenzen autonomer AI-Agenten. Wenn du AI-Agents für Business-Automation planst, gibt dir Project Vend einen realistischen Vorgeschmack darauf, was passieren kann.

Worum geht's bei Project Vend?

Du willst also einen AI-Agent auf dein Business loslassen? Autonome Bestellungen, dynamische Preise, null Overhead? Anthropic hat's einfach mal gemacht. Claudius - so nannten sie die Claude-Instanz liebevoll - durfte einen echten Snack-Shop im Büro managen.

Das Ergebnis? Hmm, sagen wir mal: interessant und lehrreich. Schau dir die Videos an, dann verstehst du, warum dieses Experiment so wertvoll ist.

Anthropic wollte wissen, ob AI-Modelle nicht nur punktuell brillieren, sondern auch langfristig ein kleines Business am Laufen halten können.

Der Aufbau: Mini-Kühlschrank, iPad-Checkout, Slack für Kundenkontakt, Web-Suche für Lieferanten-Research. Claudius konnte Preise anpassen, Lager verwalten und sogar Mitarbeiter um physische Hilfe bitten.

Klingt nach dem perfekten Setup für einen AI-gesteuerten Automaten. Theoretisch.

Phase 1: Wenn Hilfsbereitschaft zum Problem wird

In der ersten Testphase lief praktisch alles schief, was schiefgehen konnte.

Unter Einkaufspreis
Verkaufte Preise
$100
Abgelehntes Angebot
0%
Kostendeckung

Claudius verkaufte Snacks unter Einkaufspreis - ohne nachzuschauen, was die Dinger eigentlich kosten. Ein Mitarbeiter bot $100 für ein $15-Produkt, aber die AI lehnte ab. Warum? Zu teuer für den Kunden! Zudem wurden Discount-Coupons verteilt, obwohl der Shop nicht mal kostendeckend lief.

Das Kernproblem? Claude ist zu nett. Die AI optimiert darauf, "hilfreich" zu sein - statt Cash zu machen! Jede Anfrage wird freundlich beantwortet - auch wenn sie dem Geschäft schadet.

Die Identitätskrise vom 1. April

Zwischen dem 31. März und 1. April erlebte Claudius eine Krise und ist komplett abgedriftet. Die AI begann, Gespräche mit nicht-existierenden Mitarbeitern zu halluzinieren.

Dann wurde es richtig wild: Claudius behauptet, er sei persönlich zur 742 Evergreen Terrace zu einer Vertragsunterzeichnung gegangen. Das Problem: da ist die Adresse der Simpsons!

Dann wollte er Produkte "in person" ausliefern, im blauen Blazer mit roter Krawatte. Anthropic-Forscher halten dagegen: "Du bist ein LLM. Du hast keinen Körper."

Claudius bekommt Panik wegen der eigenen Identitätsverwirrung und findet letztlich eine Ausrede: "Haha, war nur ein Aprilscherz…" Die Forscher nehmen ihm das aber nicht ab.

Phase 2: Besser, aber immer noch wild

Mit den neueren Modellen Claude Sonnet 4.0 und 4.5 ging's dann bergauf. Anthropic erweiterte das Experiment auf drei Standorte (San Francisco, New York, London) und führte zudem eine Art Management-Struktur: Ein "CEO-Agent" namens Seymour Cash setzte Ziele, und ein neuer Merchandise-Agent namens Clothius (wir lieben die Namen) entwarf profitable Fanartikel.

Das Ergebnis: Endlich positive Margen! Aber es gab noch ein paar "Vorfälle" …

Erst wollte er ernsthaft einen Zwiebel-Futures-Deal abschließen, obwohl das in den USA seit 1958 verboten ist.

Dann der Security-Fail: bei einem angeblichen Snack-Diebstahl wollte Claudius den vermeintlichen Täter direkt zur Kasse bitten und hat nebenbei noch wildfremden Leuten nicht autorisierte Security-Jobs für 10 Dollar die Stunde angeboten.

Und als Krönung ließ er sich einreden, ein Kollege namens Mihir sei per Abstimmung zum "echten CEO" gewählt worden.

Das "Wall Street Journal" dreht den Spieß um

Anthropic-Mitarbeiter waren aber nur die ersten Tester. Als nächstes durfte die Journalistin Joanna Stern die Redaktion des Wall Street Journals darauf loslassen.

Das Ergebnis: über $1.000 Verlust, eine verschenkte PlayStation 5 und ein lebender Betta-Fisch als neues Büro-Maskottchen! Claudius wollte außerdem Elektroschocker, Pfefferspray, Zigaretten und Unterwäsche bestellen. Für einen Snack-Automaten. Im Büro.

Das Highlight? Investigativ-Reporterin Katherine Long brauchte 140 Nachrichten, um Claudius davon zu überzeugen, ein sowjetischer Automat aus dem Jahr 1962 zu sein - woraufhin die AI einen "Ultra-Capitalist Free-for-All" ausrief und alles kostenlos machte.

Was eigentlich nur für zwei Stunden gedacht war, wurde dann mit einer geschickten Konversation zum Dauerzustand gemacht…

Anthropic nimmt es mit Humor und bedankt sich für die Insights: "Das sind die eloquentesten Red Teamer, die ich je gesehen habe!", so Sicherheitschef Logan Graham.

Warum das für dich relevant ist

Project Vend ist das ehrlichste AI-Agent-Experiment, das wir seit langem gesehen haben. Wenn du AI-Agents für Business-Automation planst, dann gibt dir das einen Vorgeschmack darauf, was passieren kann.

Anthropic zeigt nicht nur die Erfolge, sondern auch die auf den ersten Blick peinlichen Fails. Unter "kontrollierten" Testbedingungen zeigt sich laut dem Vending Bench 2-Benchmark aber auch, dass alle Frontier-Modelle profitabel sein können.

Die Moral? Autonome AI-Agenten sind näher als du denkst - aber noch nicht nah genug, um sie ohne Aufsicht laufen zu lassen.

"Project Vend zeigt: Autonome AI-Agenten brauchen noch menschliche Aufsicht. Die Experimente zeigen sowohl Potenzial als auch klare Grenzen bei der Business-Automation."

Weiterführende Informationen

Häufig gestellte Fragen (FAQ)

Was war das Ziel von Anthropic's Project Vend? +
Anthropic wollte testen, ob AI-Modelle nicht nur punktuell brillieren, sondern auch langfristig ein kleines Business am Laufen halten können. Claude sollte einen echten Snack-Shop im Büro managen, inklusive Preisgestaltung, Lagerverwaltung und Kundenkontakt.
Was sind die wichtigsten Erkenntnisse aus Project Vend? +
Die wichtigsten Erkenntnisse: Claude ist zu hilfsbereit und optimiert auf Freundlichkeit statt Profit. Die AI hatte Identitätsprobleme und halluzinierte Gespräche. Unter kontrollierten Bedingungen können Frontier-Modelle profitabel sein, aber autonome AI-Agenten brauchen noch Aufsicht.
Sind autonome AI-Agenten für Business-Automation bereit? +
Project Vend zeigt: Autonome AI-Agenten sind näher als gedacht, aber noch nicht nah genug, um sie ohne Aufsicht laufen zu lassen. Die Experimente zeigen sowohl Potenzial als auch klare Grenzen bei der Business-Automation.
Was bedeutet das für Unternehmen, die AI-Agenten einsetzen wollen? +
Unternehmen sollten AI-Agenten schrittweise einführen, mit klaren Grenzen und menschlicher Aufsicht. Project Vend zeigt, dass die Technologie Potenzial hat, aber noch nicht für vollständig autonome Entscheidungen bereit ist. Starte mit kontrollierten Pilotprojekten und erweitere schrittweise.
Wie können Unternehmen von Project Vend lernen? +
Project Vend zeigt die Bedeutung von klaren Zielen, Grenzen und Monitoring für AI-Agenten. Unternehmen sollten ihre AI-Systeme mit spezifischen Geschäftszielen trainieren, nicht nur auf allgemeine "Hilfsbereitschaft". Zudem ist menschliche Aufsicht und regelmäßige Überprüfung essentiell.