Seit der Veröffentlichung von ChatGPT und anderen Large Language Models (LLMs) hat sich unser Alltag grundlegend verändert – sowohl bei der Arbeit als auch in der Freizeit. Viele von uns nutzen LLMs tagtäglich und lassen sich beraten, Texte erstellen oder Ideen generieren. Heute können die Modelle weit mehr als nur Texte erstellen: Sie generieren und bearbeiten auch Sprache, Bilder und Videos. Was könnte man sich mehr wünschen?
Der untätige Staubsaugerroboter
Ein LLM ist heute wie ein Staubsaugerroboter, der durch die Wohnung fährt und mir sagt “hier ist dreckig” und “dort sollte gesaugt werden”. Das kann schon eine Hilfe sein, aber die wirkliche Arbeit, dann dort auch sauber zu machen, bleibt am Ende bei mir hängen. Diese Analgoie stammt aus dem “KI-Podcast” von der ARD (https://www.ardaudiothek.de/episode/der-ki-podcast/autonome-bots-wie-maechtig-sind-ki-agenten/ard/13858625/).
Viele Unternehmen, die aktuell schon aus dem LLM-Rennen bekannt sind, arbeiten nun daran, dass wir auch tatkräftige Hilfe bekommen. Anstatt “nur” zu recherchieren, welches Mietauto am günstigsten ist, könnte ein solches System den Wagen auch gleich buchen. Anstatt mir “nur” einen Post für Instagram zu generieren, könnte der Post gleich veröffentlicht werden. Solche Systeme werden oft als “Agenten” bezeichnet – und sie könnten unseren Alltag radikal verändern.
Das Agenten-Prinzip
Agenten sind dabei unabhängige “Akteure”, die in einer begrenzten Umgebung mit begrenzten Mitteln agieren können. Die Umgebung eines Agenten wird durch Prompting und Grounding festgelegt – Prinzipien, die wir bereits von LLMs kennen. Prompting definiert die Aufgaben und den Kontext, während Grounding den Agenten mit spezifischen Informationen oder externen Ressourcen wie Datenquellen verankert. Ein Beispiel: “Du bist ein Experte für Urlaubsreisen nach Mallorca…” Ein Agent erhält zudem Zugriff auf spezifische Tools, die Entwickler definieren und bereitstellen. Diese Werkzeuge beschreiben, welche Aufgaben der Agent ausführen kann. In unserem Beispiel definieren wir: “Du hast Zugriff auf die Schnittstellen mehrerer Autovermietungen auf Mallorca. Du kannst über REST-API Calls Anfragen stellen und nach Bestätigung ein Mietauto buchen, das geht über einen POST-Call mit den folgenden Informationen: …”
Vielleicht ist das nicht das einzige Tool, das unser Agent hat: Vielleicht statten wir ihn noch mit einer Kartensuche aus, sodass wir noch die Distanz vom Ort der Autovermietung zu unserem Hotel bei der Entscheidung mit berücksichtigen und nicht nur nach dem Preis auswählen. Vielleicht sollten wir auch noch ein Kundenportal einbinden, sodass wir Bewertungen von den letzten Kunden kennen. Ich bin mir sicher, es fallen uns noch unzählige weitere, praktische Tools ein, die wir hier einbauen könnten.
Je mehr Agents, desto besser!
Ein Agent kommt bei so vielen Tools schnell an seine Grenzen. Wir müssen immer mitbedenken: Die Aufmerksamkeit eines LLMs ist begrenzt und irgendwann ist der “Kurzzeitspeicher” des LLMs mit so vielen Anforderungen überfüllt, sodass einzelne Teile schon wieder vergessen werden. Die Lösung: Wir kombinieren mehrere spezialisierte LLM-Agenten und ihre Tools zu einem leistungsfähigen, mehrstufigen KI-System. Im Vergleich zu klassischen Automatisierungen wie Makros oder Skripten, die strikt nach Vorgaben arbeiten, eröffnen KI-Agenten eine neue Dimension: Sie können flexibel auf unerwartete Situationen reagieren, lernen aus Erfahrungen und verbessern ihre Fähigkeiten kontinuierlich. Das macht sie zu einem Gamechanger in der Automatisierung.
Richtig spannend wird es, wenn wir neben spezialisierten Agenten auch LLMs einsetzen, die koordinierende Aufgaben übernehmen. Das kann man sich dann so vorstellen wie ein Team aus Agents mit verschiedenen Persönlichkeiten. Ein Agent ist dazu da, die gestellte Aufgabe zu verstehen, in Teilaufgaben zu zerteilen und in einem Plan zu koordinieren. Der Kritiker-Agent stellt den Plan infrage und schlägt Korrekturen vor. Anschließend werden die einzelnen Aufgaben an die Tool-Agenten verteilt, die Informationen zusammentragen und Aktionen durchführen. Ein weiterer Agent kommuniziert bei Unklarheiten direkt mit dem Nutzer und stellt Rückfragen. Ein anderer überwacht den gesamten Prozess, dokumentiert alle Schritte und entwickelt Verbesserungsvorschläge für zukünftige Aufgaben dieser Art.
Make it visual!
Die bisherigen Ergebnisse sind beeindruckend – doch das Potenzial ist noch lange nicht ausgeschöpft. Wie oben erwähnt, können Modelle inzwischen auch Text UND Bilder verarbeiten. Von Anwendungen, die nun nicht über API-Schnittstellen verfügen, werden alle paar Sekunden Screenshots gemacht und einem LLM zur Evaluation gegeben. Das Modell erkennt Eingabefelder und Buttons, bewertet Interaktionsmöglichkeiten und führt Aktionen aus – ganz ohne, dass ich Maus oder Tastatur benutzen muss.
Ein reales Beispiel, das so bereits heute funktioniert, ist “Computer use” von Anthropic Claude, was in diesem Video seine Möglichkeiten zeigt:
Mit diesen Erweiterungen machen wir aus unserem “untätigen” Staubsaugerroboter eine tatsächliche Haushaltshilfe, die nicht nur meldet, wenn sie irgendwo Dreck in den Ecken findet, sondern auch gleich saugt und wischt, ohne dass man selbst etwas tun muss. Die Möglichkeiten scheinen grenzenlos. Es bleibt spannend, welche innovativen Features uns in den kommenden Monaten noch überraschen werden. Natürlich träumen wir alle von einem Agenten, der morgens Kaffee kocht und uns sagt, dass die Steuererklärung schon erledigt ist – aber wer weiß, vielleicht wird das schneller Realität, als wir denken.