Dieser Leitfaden erklärt die Grundlagen von KI-Agenten und zeigt, wie diese mit verschiedenen Automatisierungsplattformen erstellt werden können, mit praktischen Beispielen für Softwareentwickler.
Die moderne Softwareentwicklung nutzt bereits KI-Programmierassistenten, die auf Benutzereingaben reagieren. Autonome KI-Agenten entwickeln sich jedoch rasant weiter und haben das Potenzial, das Feld noch weiter zu revolutionieren. Sie können:
Diese Ergebnisse können mit intelligenten, anpassungsfähigen KI-Agenten erreicht werden, die die Systemresilienz erhöhen und Projektzeiten verkürzen.
Ein KI-Agent ist ein autonomes System, das Daten empfängt, rationale Entscheidungen trifft und in seiner Umgebung handelt, um bestimmte Ziele zu erreichen.
💡 Hinweis: Während ein einfacher Agent seine Umgebung über Sensoren wahrnimmt und über Aktoren auf sie einwirkt, enthält ein echter KI-Agent eine "Reasoning Engine" (Argumentations-Engine). Diese Engine trifft autonom rationale Entscheidungen basierend auf der Umgebung und ihren Handlungen.
Große Sprachmodelle (LLMs) und multimodale LLMs stehen im Zentrum moderner KI-Agenten, da sie eine Argumentationsschicht bereitstellen und die Leistung messen können.
Die fortschrittlichsten KI-Agenten können auch lernen und ihr Verhalten über die Zeit anpassen. Nicht alle Agenten benötigen dies, aber manchmal ist es obligatorisch.
Software-KI-Agenten arbeiten durch eine Kombination aus Wahrnehmung, Argumentation und Handlung. Im Kern verwenden sie Large Language Models (LLMs), um Eingaben zu verstehen und Entscheidungen zu treffen, aber die wahre Kraft kommt aus der Interaktion dieser Elemente:
Der Agent erhält Informationen über verschiedene Kanäle - direkte Benutzerfragen, Systemereignisse oder Daten aus externen Quellen.
Im Gegensatz zu einfachen Chatbots verwenden KI-Agenten mehrstufige Prompting-Techniken zur Entscheidungsfindung. Durch Ketten spezialisierter Prompts (Argumentation, Tool-Auswahl) können Agenten komplexe Szenarien handhaben, die mit Ein-Schuss-Antworten nicht möglich sind.
Moderne LLMs generieren strukturierte Ausgaben, die als Funktionsaufrufe an externe Systeme dienen.
Einige Agenten können sich im Laufe der Zeit durch verschiedene Mechanismen verbessern - von einfachen Feedback-Schleifen bis hin zu ausgeklügelten Modell-Updates.
Das AIMA-Lehrbuch diskutiert mehrere Haupttypen von Agentenprogrammen basierend auf ihren Fähigkeiten:
Diese Agenten sind ziemlich unkompliziert - sie treffen Entscheidungen nur basierend auf dem, was sie im Moment wahrnehmen, ohne die Vergangenheit zu berücksichtigen.
Modellbasierte Reflex-Agenten sind etwas ausgeklügelter. Sie behalten im Überblick, was hinter den Kulissen passiert, auch wenn sie es nicht direkt beobachten können.
Zielbasierte Agenten konzentrieren sich darauf, ein bestimmtes Ziel zu erreichen. Sie denken voraus und planen eine Abfolge von Aktionen, um ihr gewünschtes Ergebnis zu erreichen.
Diese sind noch fortgeschrittener. Sie weisen jedem möglichen Zustand basierend auf einer Nutzenfunktion einen "Güte"-Score zu. Sie konzentrieren sich nicht nur auf ein einziges Ziel, sondern berücksichtigen auch Faktoren wie Unsicherheit, widersprüchliche Ziele und die relative Wichtigkeit jedes Ziels.
Lernende Agenten sind die ultimativen Anpasser. Sie beginnen mit einem grundlegenden Set von Wissen und Fähigkeiten, verbessern sich aber kontinuierlich basierend auf ihren Erfahrungen.
Nach LangChains kürzlichem "State of AI Agents Report", einer Umfrage unter mehr als 1.300 Fachkräften aus verschiedenen Branchen, verwenden bereits 51% der Unternehmen KI-Agenten in der Produktion.
Dies sind dokumentierte Vorteile, die Unternehmen bereits durch den Einsatz von KI-Agenten sehen:
Handhabung großer Datenmengen, Extraktion wichtiger Erkenntnisse und Erstellung von Zusammenfassungen.
Automatisierung von Routineaufgaben, Terminverwaltung und Workflow-Optimierung.
Beschleunigung der Antwortzeiten, Behandlung grundlegender Anfragen und 24/7-Support.
Hilfe bei Programmieraufgaben, Debugging und Dokumentation.
Automatische Verarbeitung und Anreicherung von Daten, Sicherstellung der Konsistenz und Reduzierung manueller Dateneingabefehler.
Im Wesentlichen sammelt ein KI-Agent Daten mit Sensoren, entwickelt rationale Lösungen mit einer Reasoning Engine, führt Aktionen mit Aktoren aus und lernt aus Fehlern durch sein Lernsystem.
Informationen über die Umgebung kommen normalerweise in Form von Textinformationen:
Die meisten Sprachmodelle können nur textuelle Ausgaben produzieren. Diese Ausgabe kann jedoch in einem strukturierten Format wie XML, JSON, kurzen Code-Schnipseln oder sogar vollständigen API-Aufrufen mit allen Abfrage- und Body-Parametern vorliegen.
Das "Gehirn" eines LLM-basierten KI-Agenten ist ein großes Sprachmodell selbst. Es trifft rationale Entscheidungen basierend auf Zielen, um eine bestimmte Leistung zu maximieren.
Große vortrainierte Modelle wie GPT-4, Claude 3.5, Llama 3 und viele andere haben ein "eingebackenes" Verständnis der Welt, das sie aus Datenmengen während des Trainings gewonnen haben.
Basierend auf LangChains State of AI Agents Report gibt es zwei Hauptansätze zur Implementierung von KI-Agenten:
Diese Agenten reagieren auf direkte menschliche Eingaben über Chat-Interfaces oder strukturierte Befehle:
Diese Agenten arbeiten im Hintergrund und reagieren auf Ereignisse und Systemtrigger ohne direkte menschliche Intervention:
Bevor der Entwicklungsprozess beginnt, sollte der Zweck und die Hauptkomponenten eines Agenten definiert werden, einschließlich eines LLM, Speichers und Argumentationsfähigkeiten.
Die Wahl eines geeigneten Frameworks wie LangChain oder LlamaIndex ermöglicht es, RAG zu integrieren, APIs einzurichten und Ausführungslogik zu erstellen. Der Agent wird schließlich mit Feedback-Schleifen, Überwachung und Feinabstimmung optimiert.
Im Kontext von KI-Agenten ermöglichen Frameworks wie LangChain die Nutzung großer Sprachmodelle (LLMs), um diese Agenten zu entwerfen und zu erstellen.
Diese Frameworks vereinfachen den Prozess, indem sie Prompt-Templates und Tools bereitstellen, auf die ein Agent Zugriff erhält. Ein LLM fungiert als Reasoning Engine hinter dem Agenten und entscheidet, welche Aktionen in welcher Reihenfolge durchgeführt werden sollen.
💡 Hinweis: Low-Code-Plattformen wie Make.com oder n8n gehen einen Schritt weiter, indem sie eine visuelle Schnittstelle zu diesen Frameworks bereitstellen. Diese Plattformen ermöglichen es, Agent-Komponenten per Drag-and-Drop zu konfigurieren.
Das folgende Beispiel zeigt die Erstellung eines intelligenten Datenanalyst-Agenten, der Benutzern dabei hilft, Erkenntnisse aus einer Datenbank mit natürlicher Sprache zu gewinnen.
Anstatt das LLM-Kontextfenster mit rohen Daten zu überlasten, verwendet dieser Agent SQL, um die Datenbank effizient abzufragen - genau wie menschliche Analysten. Benutzer können Fragen in einfachem Deutsch stellen, während der Agent die technischen Komplexitäten der Datenbankinteraktion im Hintergrund abwickelt.
Der erste Teil des Workflows beginnt mit der Datenvorbereitung:
Der Hauptworkflow umfasst:
Konfiguration des Agent-Systems:
Der fertige Agent kann komplexe Fragen zu den Daten beantworten und mehrere SQL-Abfragen durchführen, bevor eine endgültige Antwort geliefert wird.
Ja, Large Language Models können als KI-Agenten fungieren, wenn sie mit den richtigen Tools und Frameworks ausgestattet sind. Sie bieten die Reasoning-Fähigkeiten, die für autonome Entscheidungsfindung erforderlich sind.
ChatGPT in seiner Grundform ist eher ein Konversations-KI-System als ein vollständiger Agent. Mit zusätzlichen Tools und Plugins kann es jedoch agentenähnliche Funktionen ausführen.
Multi-Agent-Systeme bestehen aus mehreren KI-Agenten, die zusammenarbeiten, um komplexe Aufgaben zu lösen. Diese können durch die Verbindung mehrerer Workflows erstellt werden, die jeweils einen spezialisierten Agenten repräsentieren.
KI-Agenten können durch verschiedene Mechanismen lernen:
Dieser Leitfaden hat vorgestellt, was ein KI-Agent ist und wie er funktioniert, welche Arten von KI-Agenten existieren und welche Vorteile ihre Nutzung bietet.
Es wurden verschiedene KI-Agent-Beispiele durchgegangen und gezeigt, wie ein SQL-Agent erstellt werden kann, der eine lokale SQLite-Datei analysiert und Antworten basierend auf ihrem Inhalt liefert.
Mit einem Überblick und einem praktischen Beispiel für die Erstellung von KI-Agenten ist es Zeit, den Status quo herauszufordern und einen Agenten für reale Aufgaben zu erstellen.
Low-Code-Plattformen ermöglichen es, sich auf das Design, Testen und Upgraden des Agenten zu konzentrieren. Alle technischen Details werden im Hintergrund verwaltet, aber es besteht auch die Möglichkeit, eigenen Code zu schreiben, wenn nötig.
Ob in Einzelarbeit, kleinen Teams oder Unternehmen - die verfügbaren Tools und Frameworks bieten vielfältige Möglichkeiten für die Implementierung von KI-Agenten.