Salesforce und Gartner zeigen die Unzulänglichkeiten von KI-Agenten bei der erfolgreichen Bewältigung komplexer Aufgaben auf.
In den letzten Jahren hat das Versprechen der "agentenbasierten KI" sowohl Technikbegeisterte als auch Unternehmen in ihren Bann gezogen. Die Vorstellung von autonomen Systemen, die mühelos komplexe Aufgaben erledigen und die Arbeitsabläufe im Büro revolutionieren, scheint unwiderstehlich zu sein - wie etwas aus einem Science-Fiction-Film. Man denke nur an den sprachgesteuerten Teespender aus Star Trek. Leider bleibt diese Vision, wie die neuesten Erkenntnisse zeigen, eher Fiktion als Realität.
Ein von The Register veröffentlichter Bericht hebt die anhaltenden Probleme mit agentenbasierten KI-Systemen hervor. Untersuchungen der Carnegie Mellon University (CMU) zeichnen ein ernüchterndes Bild: KI-Agenten schaffen es in fast 70 % der Fälle nicht, mehrstufige Aufgaben effektiv zu erledigen! Gartner, ein führendes Beratungsunternehmen für Technologietrends, geht davon aus, dass bis 2027 über 40 % der KI-Agentenprojekte aufgrund von Problemen wie unklarem Geschäftswert und ausufernden Kosten abgebrochen werden (Quelle: Gartner sagt voraus, dass über 40 % der KI-Agentenprojekte bis Ende 2027 abgebrochen werden). Kombinieren Sie dies mit den jüngsten CRM-spezifischen Benchmarks von Salesforce, die bescheidene Erfolgsraten (nur 35 % für komplexe Multi-Turn-Interaktionen) ergaben (Quelle: CRMArena-Pro: Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions), und die Schlussfolgerung ist kaum zu übersehen: KI-Agenten sind in ihrer jetzigen Form weit davon entfernt, uns am Arbeitsplatz zu ersetzen.
Selbst Gartner zeigt sich unbeeindruckt und wirft Unternehmen sogar "Agent-Washing" vor - die Umbenennung älterer Technologien wie Chatbots und robotergestützte Prozessautomatisierung (RPA) in revolutionäre KI-Agenten, obwohl diese nicht in der Lage sind, autonom und effektiv zu arbeiten.
In Testumgebungen wie der CMU's TheAgentCompany schnitten KI-Modelle - einschließlich modernster Modelle wie Gemini-2.5-Pro und Claude-3.7-Sonnet - erbärmlich ab. Die Erfolgsquoten reichten von 1 % bis zu 30 %, selbst bei grundlegenden Büroaufgaben wie Terminplanung, Codierung oder Beantwortung von Mitteilungen der Mitarbeiter. Die Forscher stellten eklatante Mängel fest, darunter Szenarien, in denen KI-Agenten Lösungen regelrecht fabrizierten oder mit grundlegenden Elementen der Benutzeroberfläche wie Pop-ups zu kämpfen hatten.
Um die Skepsis zu verstärken, hat sich Apple kürzlich mit eigenen Studien zu diesem Thema geäußert (Apple's Study Reveals Insights: Debunking AI Superintelligence Myths). Apple vertritt den Standpunkt, dass die Behauptungen über die Denkfähigkeiten von KI-Agenten oft übertrieben sind. Autonome Entscheidungsfindung, logisches Denken und Kontexterkennung - Fähigkeiten, die KI-Agenten näher an die in Hollywood dargestellte menschenähnliche Intelligenz heranbringen würden - sind mit grundlegenden Mängeln behaftet. Diese Systeme haben Schwierigkeiten, Nuancen zu verstehen, und sind nicht ausgereift genug, um Aufgaben in Unternehmensumgebungen sicher und zuverlässig auszuführen.
Apples Herangehensweise an die KI ist grundsätzlich zurückhaltend und verdeutlicht die große Kluft zwischen den Erwartungen an die KI-Fähigkeiten und der aktuellen funktionalen Realität. Dies erklärt, warum die meisten KI-Werbungen von Google (Gemini Live Advertising) und anderen Tech-Giganten vor allem einfachere, weniger anspruchsvolle Anwendungen vorstellen. Ihre Werbeanstrengungen betonen in der Regel grundlegende KI-Aufgaben, wobei sie subtil anerkennen, dass die Technologie noch nicht vollständig ausgereift ist, um komplexere, subtilere Herausforderungen effizient zu bewältigen.
Die Forscher von Salesforce haben in ihren CRM-Benchmarks dieselben Gedanken geäußert. Ihre Ergebnisse zeigen, dass die Erfolgsquote der Agenten bei Aufgaben mit nur einer Anfrage im Durchschnitt bei 58 % liegt und bei komplexeren Szenarien mit mehreren Anfragen auf 35 % sinkt (Quelle). Besorgniserregend ist die Tatsache, dass die KI-Modelle nahezu kein Bewusstsein für Vertraulichkeit zeigen. Für Unternehmen, die auf sensible Daten angewiesen sind, ist dies ein enormes Warnsignal.
Inzwischen sind die Analysten von Gartner zu dem Schluss gekommen, dass die meisten agentenbasierten KI-Angebote nur einen geringen Return on Investment (ROI) bieten. Den aktuellen KI-Modellen fehlt es an Reife, um komplexe Geschäftsziele selbstständig zu erreichen oder nuancierte Anweisungen zuverlässig zu befolgen. Der Hype ist da, aber es mangelt an der Substanz (Quelle).
Zusammengefasst: Die Weltanschauung, dass KI-Agenten die Geschäftsabläufe vereinfachen, ist bestenfalls verfrüht. Trotz der Versprechungen der großen Anbieter und des anhaltenden Hypes um diese Technologien lügen die Zahlen nicht - KI-Agenten haben Schwierigkeiten, kompetente, sichere und skalierbare Lösungen zu liefern.
Was bedeutet das für die Unternehmen?
Die Verlockung, Arbeit an intelligente Agenten zu delegieren, bleibt eine verlockende Vision, aber im Moment ist es genau das - eine Vision. Salesforce, Gartner, Apple und die CMU bremsen alle den Hype um die agentenbasierte KI. Unternehmen müssen ihre Erwartungen dämpfen, sich auf pragmatische Lösungen konzentrieren und die Tatsache akzeptieren, dass die menschliche Intelligenz immer noch das zuverlässigste Entscheidungsfindungsinstrument für Unternehmen ist.