
Nehmen wir an, Sie haben einen neuen, hochqualifizierten Mitarbeiter für die Arbeit im Homeoffice eingestellt. Sie bitten diesen, einen Betriebsausflug zu planen und zu buchen. Sie sagen dem Mitarbeiter nicht, welche Maustasten geklickt oder welche Webseiten besucht werden sollen – Sie vertrauen darauf, dass dies selbst herausgefunden wird. Der Mitarbeiter prüft Kalender, vergleicht Flugpreise, denkt daran, dass der CEO frühe Abflüge hasst, und bucht die Tickets.
Kurz gesagt, genau so funktioniert agentische KI. Diese Systeme basieren auf einer ausgeklügelten Architektur, die auf sechs Schlüsseleigenschaften beruht:
1. Wahrnehmung
So wie herkömmliche Computer Binärcode wahrnehmen, nimmt agentische KI die Umgebung mithilfe von Daten in all ihren Formen wahr, sei es Text, visuelle, strukturierte oder unstrukturierte Daten, und aus verschiedenen Quellen wie Wissensdatenbanken, Sensoren, API und Benutzereingaben.
Auf Grundlage der Informationen interpretiert sie Signale und bildet einen Kontext dazu. Dieser Zustand wird zur Grundlage für Denken und Handeln.
2. Schlussfolgerung
Sobald der Kontext erstellt ist, analysiert die KI die Kernaufgaben mithilfe von LLMs.
Da menschliche Eingaben vage sein können, nutzen Agenten interne Denkprozesse oder den sogenannten „inneren Monolog der Agenten“, um das Ziel zu verstehen. Das bedeutet, dass KI-Agenten das Problem intern durchgehen, bevor sie handeln.
Hierfür verwendet es ein oder mehrere Denkmodelle, wie z. B. Chain of Thought (CoT) Reasoning, Tree of Thought (ToT) und ReAct (Reason + Act), um iterativ zu denken, eine Annahme zu testen und dann erneut zu denken, wodurch die menschliche Problemlösung nachgeahmt wird.
Ist ein Ziel mehrdeutig, kann es mithilfe von Heuristiken und probabilistischen Schlussfolgerungen selbstständig die Lücken füllen. Der Sinn dieses Schrittes besteht darin, alle möglichen Konsequenzen verschiedener Handlungsoptionen zu bedenken, bevor man sich für einen einzigen Weg entscheidet.
Angenommen, wir delegieren die Aufgabe „Planung eines Firmenausflugs“ an ein agentische KI-System. So könnte die Schlussfolgerung aussehen:
„Das Ziel ist es, ein Firmenausflug für nächsten Monat zu planen und zu buchen. Zuerst muss ich die Verfügbarkeit im Kalender des Teams prüfen. Ich sehe, dass der einzige freie Block, in dem alle Führungskräfte verfügbar sind, der 15.-17. ist. Als Nächstes muss ich einen Veranstaltungsort für 50 Personen mit einem Budget von bis zu 15.000 $ finden. Das Mountain Resort ist verfügbar, kostet aber 18.000 Dollar. Das Lakeside Inn kostet 12.000 Dollar, ist aber nur nach einer dreistündigen Autofahrt zu erreichen. Da das Budget sehr begrenzt ist und die Fahrt innerhalb des vierstündigen Limits liegt, werde ich dem Budget Priorität einräumen und das Lakeside Inn auswählen und dann nach Shuttle-Optionen suchen.“
Die Fähigkeit, widersprüchliche Informationen abzuwägen und mithilfe von Logik eine Lösung herzuleiten, unterscheidet einen Agenten von einem Skript.
3. Zielsetzung
Als Nächstes teilt das System das übergeordnete Ziel in kleinere, logische Schritte auf und bestimmt die beste Reihenfolge, um diese zu erreichen.
Um bei unserem Beispiel mit dem Firmenausflug zu bleiben: Der Agent zerlegt den Reiseplan in einen Abhängigkeitsgraphen von Teilaufgaben:
- Aufgabe 1: Teamkalender für die Reisetage prüfen und reservieren.
- Aufgabe 2: Den Veranstaltungsort Lakeside Inn für den 15.–17. Juli buchen.
- Aufgabe 3: Einen Shuttle-Service für 50 Mitarbeiter organisieren.
- Aufgabe 4: Ernährungseinschränkungen sammeln und die Menüs finalisieren.
- Aufgabe 5: Abstimmung mit den Abteilungsleitern zur Besetzung der Workshop-Zeitfenster.
Wenn eine Aufgabe zu umfangreich ist, um sie auf einmal auszuführen, legt die KI Teilziele und Meilensteine fest.
Dieses proaktive Verhalten ermöglicht es dem System, Aufgaben und Schritte selbstständig anzupassen, um das gewünschte Ergebnis zu erzielen, ohne auf neue Prompts warten zu müssen.
4. Entscheidungsfindung
In dieser Phase muss der Agent die effektivste Vorgehensweise ermitteln. Dafür verwendet er eine Mischung aus Hilfsfunktionen, prioritätsbasierten Entscheidungsmodellen und probabilistischen Entscheidungsmodellen, um das beste Ergebnis zu erzielen.
Wenn ein Hindernis aufkommt, berechnet er einen Weg neu und trifft Entscheidungen in Echtzeit.
Nehmen wir an, er versucht Aufgabe 3 und stellt fest, dass das Shuttle-Unternehmen ausgebucht ist. Er setzt sofort ein neues Teilziel – zum Beispiel Zugfahrpläne recherchieren und Uber-Gutscheine gruppieren – und fährt mit dem neuen Plan fort.
In diesem Schritt steht die Autonomie an erster Stelle. Die Agenten argumentieren miteinander, um Entscheidungen zu treffen und sich selbst auf die nächstbeste Option zu korrigieren.
5. Ausführung
Sobald der Plan festgelegt ist und Entscheidungen in Ihrem Namen getroffen wurden, wird entschieden, welche Tools (APIs, Code-Dolmetscher, Browser-Aktionen) zur Ausführung des Workflows benötigt werden.
Da agentische KI auf vom Administrator installierte Plug-ins externer Tools zugreifen kann, kann sie direkt mit diesen Drittanbieteranwendungen interagieren und Aufgaben auf ihnen ausführen.
Wenn bei der Ausführung ein API-Aufruf fehlschlägt oder eine Buchungswebsite ausfällt, verfügen agentische KI-Systeme über eine integrierte Fehlerbehandlung. Das bedeutet, anstatt den Prozess zu beenden, wird der Fehler analysiert. Wenn der Fehler nur vorübergehend ist, wird der Prozess nach zwei Minuten erneut versucht. Wenn nicht, wird sich die KI selbst korrigieren und nach der nächstbesten Aktion suchen.
Die meisten Unternehmen setzen an dieser Stelle Schutzmechanismen ein, weil Agenten in einer undurchsichtigen Black-Box-Umgebung kommunizieren und niemand wirklich weiß, was vor sich geht.
Um also die Interessen aller Beteiligten zu schützen, setzen sie Grenzen, die festlegen, wo der Agent unabhängig agieren kann und wo er auf die Zustimmung des Menschen warten muss.
Beispielsweise kann sie Sie von der Buchungswebsite bis zur Zahlungsseite weiterleiten, Sie dann aber auffordern, die Transaktion manuell zu bestätigen.
6. Lernen und Gedächtnis
Agentisches Lernen ist der größte Unterscheidungsfaktor. Im Gegensatz zur generativen KI, die bis zur expliziten Aufforderung gleich bleibt, lernt agentische KI aus vergangenen Interaktionen und Erfahrungen.
Hierfür greift die KI auf das episodische Gedächtnis zurück. Es speichert vergangene Aktionen, Interaktionen und Feedback in einer Speicherdatenbank. Mit jeder neuen Information aktualisiert die KI ihren prozeduralen Speicher. Wenn das nächste Mal eine ähnliche Aufgabe oder Anfrage auftaucht, kann die KI sie effizienter erledigen.
Die Speicherkomponente ist jedoch standardmäßig nicht aktiviert und muss über Vektorspeicher oder Datenbanken hinzugefügt werden.