Ein ganzheitlicher Leitfaden für leistungsstarke KI-Agenten

Wenn wir über die „Leistung“ eines KI-Agenten sprechen, neigen wir dazu, uns auf eine Sache zu konzentrieren: Geschwindigkeit. Die reine Latenz ist zwar ein wichtiger Messwert, aber nur ein Teil eines viel größeren Puzzles. Wahre Hochleistung ist eine Mischung aus technischer Geschwindigkeit, Qualität und Zuverlässigkeit der Ergebnisse sowie einer nahtlosen Benutzererfahrung. Ein Agent, der schnell eine falsche Antwort gibt, hat keine gute Leistung. Das Gleiche gilt für einen Agenten, der zwar die richtige Antwort gibt, dessen Interaktion jedoch verwirrend ist.

Bei SnapLogic haben wir uns während der Entwicklung und Optimierung eines KI-Agenten für einen Großkunden aus der Gesundheitsbranche auf den Weg zu einer ganzheitlichen Leistungsoptimierung begeben. Wir wollten ihn nicht nur schneller machen, sondern in jeder Hinsicht verbessern. Diese Reise hat uns gelehrt, dass sich erhebliche Vorteile erzielen lassen, wenn man das gesamte System betrachtet, von den Backend-Datenquellen bis hin zu den Pixeln auf dem Bildschirm des Benutzers.

Hier ist unser Leitfaden für die Entwicklung eines wirklich leistungsstarken KI-Agenten, gestützt auf reale Messwerte.

Die Grundlage: Daten und Architektur

Bevor Sie einen Motor tunen können, müssen Sie ihn auf einem soliden Chassis aufbauen. Bei einem KI-Agenten ist dieses Chassis seine Kernarchitektur und seine Beziehung zu Daten.

Wählen Sie das richtige Gehirn für die Aufgabe: Nicht alle LLMs sind gleich. Das „beste“ Modell hängt vollständig von der Art der Aufgaben ab, die Ihr Agent ausführen muss. Ein einfacher Agent mit ein oder zwei Tools hat ganz andere Anforderungen als ein komplexer Agent, der denken, planen und dynamische Vorgänge ausführen muss. Die Anpassung des Modells an die Komplexität der Aufgabe ist entscheidend für das Gleichgewicht zwischen Kosten, Geschwindigkeit und Leistungsfähigkeit.

Aufgabenkomplexität	Modelltyp	Eigenschaften & Am besten geeignet für
Einfache Aufgaben mit einem einzigen Werkzeug	Schnell und kostengünstig	Ziel:Ausführung einer klar definierten Aufgabe mit einem begrenzten Werkzeugsatz (z. B. einfache Datenabfragen, Klassifizierung). Diese Modelle sind schnell und kostengünstig und eignen sich perfekt für Aktionen mit hohem Volumen und geringer Komplexität.
Multi-Tool-Orchestrierung	Ausgewogen	Ziel: ZuverlässigeAuswahl des richtigen Tools aus mehreren Optionen und Bearbeitung mäßig komplexer Benutzeranfragen. Diese Modelle bieten eine hervorragende Kombination aus Geschwindigkeit, Kosten und verbesserter Befehlsausführung für eine gute Benutzererfahrung.
Komplexes Denken und dynamische Aufgaben	Hochleistungsfähig / Ausgereift	Ziel:Bearbeitung mehrdeutiger Anfragen, die mehrstufiges Denken, Planung und den Einsatz fortschrittlicher Tools wiedie dynamische Generierung von SQL-Abfragen erfordern. Dies sind die leistungsstärksten (und teuersten) Modelle, die für Aufgaben unerlässlich sind, bei denen tiefgreifendes Verständnis und Genauigkeit entscheidend sind.

Aufgabenkomplexität

Modelltyp

Eigenschaften & Am besten geeignet für

Einfache Aufgaben mit einem einzigen Werkzeug

Schnell und kostengünstig

Ziel:Ausführung einer klar definierten Aufgabe mit einem begrenzten Werkzeugsatz (z. B. einfache Datenabfragen, Klassifizierung). Diese Modelle sind schnell und kostengünstig und eignen sich perfekt für Aktionen mit hohem Volumen und geringer Komplexität.

Multi-Tool-Orchestrierung

Ausgewogen

Ziel: ZuverlässigeAuswahl des richtigen Tools aus mehreren Optionen und Bearbeitung mäßig komplexer Benutzeranfragen. Diese Modelle bieten eine hervorragende Kombination aus Geschwindigkeit, Kosten und verbesserter Befehlsausführung für eine gute Benutzererfahrung.

Komplexes Denken und dynamische Aufgaben

Hochleistungsfähig / Ausgereift

Ziel:Bearbeitung mehrdeutiger Anfragen, die mehrstufiges Denken, Planung und den Einsatz fortschrittlicher Tools wiedie dynamische Generierung von SQL-Abfragen erfordern. Dies sind die leistungsstärksten (und teuersten) Modelle, die für Aufgaben unerlässlich sind, bei denen tiefgreifendes Verständnis und Genauigkeit entscheidend sind.

Komplexität mit einem Multi-Agenten-Ansatz dekonstruieren: Ein einzelner, monolithischer Agent, der für alle Aufgaben ausgelegt ist, kann langsam und unhandlich werden. Ein fortschrittlicherer Ansatz besteht darin, einen hochkomplexen Agenten in ein Team kleinerer, spezialisierter Agenten aufzuteilen. Diese Strategie bietet zwei entscheidende Vorteile:
1. Es ermöglicht die Verwendung schnellerer, kostengünstigerer Modelle. Jeder spezialisierte Agent hat eine engere, klarer definierte Aufgabe, was oft bedeutet, dass Sie für diese spezifische Aufgabe ein weniger leistungsfähiges (und schnelleres) LLM verwenden können und Ihr komplexestes Modell für den „Manager“-Agenten reservieren können, der die anderen koordiniert.
2. Dies erhöht die Wiederverwendbarkeit erheblich. Diese kleineren, funktionsspezifischen Agenten und die ihnen zugrunde liegenden Tools sind modular aufgebaut. Sie können leicht umfunktioniert und in Ihrem nächsten KI-Agenten wiederverwendet werden, was zukünftige Entwicklungszyklen beschleunigt.
Mit Daten die Weichen für den Erfolg stellen: Ein KI-Agent ist nur so gut wie die Daten, auf die er zugreifen kann. Wir haben gelernt, dass die Optimierung des Datenzugriffs ein entscheidender erster Schritt ist. Dazu gehörten:
- Implementierung von Dynamic Text-to-SQL: Anstatt uns auf starre, vordefinierte Abfragen zu verlassen, haben wir den Agenten in die Lage versetzt, seine eigenen SQL-Abfragen dynamisch aus natürlicher Sprache zu erstellen. Diese Flexibilität erforderte eine umfangreiche Anfangsinvestition in die Analyse und das Verständnis der kritischen Spalten und Datenformate, die unser Agent aus Quellen wie Snowflake benötigen würde.
- Erstellen dedizierter Datenbankansichten: Zur Unterstützung des Agenten haben wir dedizierte Ansichten auf Basis unserer Quelltabellen erstellt. Diese Strategie dient zwei wichtigen Zwecken: Sie reduziert die Abfragezeiten durch Vorabverknüpfung und Vereinfachung komplexer Daten erheblich und ermöglicht es uns, sensible oder unnötige Daten aus der Quelle zu entfernen, sodass der Agent nur auf die Daten zugreifen kann, die er benötigt.
- Vorladen des Schemas für mehr Agilität: Die Bereitstellung des Datenbankschemas für den Agenten ist für die genaue dynamische SQL-Generierung von entscheidender Bedeutung. Um dies zu optimieren, laden wir die relevanten Schemata beim Start vorab. Dieser einfache Schritt spart bei jeder einzelnen Abfrage, die der Agent generiert, wertvolle Zeit und trägt so erheblich zur allgemeinen Reaktionsfähigkeit bei.

Die Engine: Optimierung der Logik und des Abrufs des Agenten

Unser Diagnose-Toolkit: KI zur Analyse von KI einsetzen

Bevor wir den Motor optimieren konnten, mussten wir genau wissen, wo die Reibung auftrat. Unser Diagnoseprozess erfolgte in zwei Schritten:

Hochrangige Analyse: Wir haben im SnapLogic Monitor begonnen, der eine hochrangige tabellarische Ansicht aller Pipeline-Ausführungen bietet. Dieses Dashboard ist der Ausgangspunkt für jede Leistungsuntersuchung. Wie Sie unten sehen können, enthält es eine Liste aller Ausführungen, deren Status und deren Gesamtdauer. Durch Klicken auf die Schaltfläche „Tabelle herunterladen“ können Sie diese Zusammenfassungsdaten als CSV-Datei exportieren. Dies ermöglicht eine schnelle, hochrangige Analyse, um Ausreißer und Trends zu erkennen, ohne sofort in ausführliche Protokolldateien eintauchen zu müssen.
KI-gestützte Tiefenanalyse: Nachdem wir über das Dashboard einen Engpass identifiziert hatten – eine Pipeline, die länger als erwartet dauerte –, haben wir die detaillierten, ausführlichen Protokolldateien für diese spezifischen Pipeline-Läufe heruntergeladen. Anschließend haben wir diese komplexen Protokolle in ein KI-Tool unserer Wahl eingespeist. Dieser Ansatz der „KI-Analyse durch KI“ half uns, wichtige Probleme sofort zu identifizieren, deren manuelle Suche Stunden gedauert hätte.

Beispielsweise deckte dieser Prozess eine unnötige Fehler-Schleife auf, die durch doppelte JDBC-Treiberversionen verursacht wurde und die Ausführungszeit unserer Snowflake Snaps erheblich verlängerte. Die Behebung dieses einzelnen Problems war ein entscheidender Faktor für die Leistungssteigerung von 68 %, die wir bei der Abfrage unserer technischen Wissensdatenbank feststellen konnten.

Mit einer präzisen Diagnose wandten wir unsere Aufmerksamkeit dem „Denkprozess“ des Agenten zu. Hier konnten wir einige unserer dramatischsten Leistungssteigerungen erzielen.

Wie wir dies erreicht haben:

Erstellen der perfekten Anweisungen (Systemaufforderungen): Wir sind von allgemeinen Aufforderungen zu hochgradig angepassten Systemaufforderungen übergegangen, die sowohl für die jeweilige Aufgabe als auch für das gewählte LLM optimiert sind. Ein einfacheres Modell erhält eine einfachere, direktere Aufforderung, während ein komplexeres Modell angewiesen werden kann, „Schritt für Schritt zu denken“, um seine Argumentation zu verbessern.
Eine einfache Umstellung für die Produktionsgeschwindigkeit: Eine der wirkungsvollsten Optimierungen mit geringem Aufwand ergab sich aus der Art und Weise, wie wir ein wichtiges Entwicklungstool einsetzen: den Record Replay Snap. Bei der Erstellung und dem Testen der Pipelines unseres Agenten ist dieser Snap für die Erfassung und Wiedergabe von Daten von unschätzbarem Wert, verursacht jedoch bei jeder Ausführung einen Mehraufwand von etwa 2,5 Sekunden. Bei einem einfachen Agentenlauf mit einem Treiber, einem Worker und einem Tool summiert sich dies zu einer unnötigen Latenz von 7,5 Sekunden in einer Produktionsumgebung. Nachdem unsere Pipelines erfolgreich getestet worden waren, haben wir diese Snaps in den Modus „Replay Only“ (Nur Wiedergabe) versetzt. Diese einfache Änderung beseitigte sofort den Overhead für die Aufzeichnung und sorgte für eine deutliche Geschwindigkeitssteigerung bei allen Agenteninteraktionen.
Intelligentere, schnellere Datenabfrage (RAG-Optimierung)Für unsere Retrieval-Augmented Generation (RAG)-Tools haben wir uns auf zwei wichtige Hebel konzentriert:
1. Den Sweet Spot finden ( k-Wert): Wir haben den k-Wert angepasst – die Anzahl der Dokumente, die für den Kontext abgerufen werden. Für unseren Anwendungsfall der Produktinformationsabfrage war die Anpassung dieses Werts der Schlüssel zu unserer Geschwindigkeitssteigerung um 63 %. Es ist die Kunst, gerade genug Kontext für eine genaue Antwort zu erhalten, ohne unnötige Arbeit für das LLM zu verursachen.
2. Chirurgische Präzision mit Metadaten: Anstatt immer eine breite Vektorsuche durchzuführen, haben wir den Agenten in die Lage versetzt, Metadaten zu verwenden. Wenn erdie eindeutige ID eines Dokuments kennt, kann er genau dieses Dokument abrufen. Das ist der Unterschied zwischen dem Durchsuchen einer Bibliothek und der Verwendung einer Signatur. Es ist schnell und präzise.
Konsistenz sicherstellen: Wir stellen die Temperatur während des Datenextraktions- und Indizierungsprozesses auf einen niedrigen Wert ein. Dadurch wird sichergestellt, dass die Datenblöcke konsistent erstellt werden, was zu zuverlässigeren und wiederholbaren Suchergebnissen führt.

Die Ergebnisse: Eine datengesteuerte Transformation

Unsere Optimierungsbemühungen führten zu erheblichen, messbaren Verbesserungen in mehreren wichtigen Anwendungsfällen für den KI-Agenten.

Anwendungsfall	Vor der Optimierung	Nach der Optimierung	Geschwindigkeitsverbesserung
Abfrage der technischen Wissensdatenbank	92 Sekunden	29 Sekunden	~68 % schneller
Bearbeitung von Kundenauftragsdaten	32 Sekunden	10,7 Sekunden	~66 % schneller
RAG-Abruf	5,8 Sekunden	2,1 Sekunden	~63 % schneller
Produktionsoptimierung (nur Wiedergabe)	20 Sekunden	17,5 Sekunden	~12 % schneller*

(*Diese Verbesserung wurde durch die Umstellung der Entwicklungs-Snaps auf einen produktionsreifen „Replay Only“-Modus erzielt, wodurch die für die Testphase typische Latenz beseitigt wurde.)

Die Erfahrung: Fokus auf den Nutzer

Letztendlich sind alle Backend-Optimierungen der Welt irrelevant, wenn die Benutzererfahrung schlecht ist. Die letzte Ebene unserer Strategie bestand darin, uns auf die Frontend-Anwendung zu konzentrieren.

Engagieren Sie sich, warten Sie nicht einfach ab: Eine einfache Meldung wie „Wird ausgeführt ...“ kann beim Benutzer Unruhe auslösen und das Warten länger erscheinen lassen. Unsere nächste Version wird den Denkprozess des Agenten in Echtzeit anzeigen (z. B. „Abfrage der Produktdatenbank ...“, „Synthese der Antwort ...“). Diese Transparenz hält den Benutzer bei Laune und schafft Vertrauen.
Den Benutzer zum Erfolg führen: Wir haben gelernt, dass ein leeres Textfeld einschüchternd wirken kann. Durch vordefinierte Beispielaufforderungen und eine klare Erläuterung der Funktionen des Agenten führen wir den Benutzer zu erfolgreichen Interaktionen.
Liefern Sie ein klares Ergebnis: Das Endergebnis muss leicht verständlich sein. Wir formatieren unsere Ergebnisse übersichtlich und verwenden Tabellen, Listen und eine klare Sprache, um sicherzustellen, dass der Benutzer die Informationen sofort verstehen und umsetzen kann.

Durch diesen ganzheitlichen Ansatz haben wir die Grundlage, den Motor und die Benutzererfahrung optimiert, um einen KI-Agenten zu entwickeln, der sich nicht nur schnell anfühlt. Er wirkt intelligent, zuverlässig und wirklich hilfreich.