Large Language Models (LLMs) wie GPT-4, Claude oder Gemini beeindrucken im Chat — aber der eigentliche Wert entsteht, wenn sie in Unternehmensanwendungen integriert werden: in CRM-Systeme, ERP-Lösungen, interne Wissensportale oder automatisierte Workflows.
Dieser Artikel erklärt die wichtigsten Architekturmuster für die LLM-Integration — verständlich für Entscheider, die kein Software-Engineering-Hintergrund haben, aber fundierte Entscheidungen treffen müssen.
Die drei grundlegenden Integrationsmuster
Bevor man ein konkretes System baut, muss man verstehen, welches Architekturmuster zum Anwendungsfall passt. In der Praxis gibt es drei dominante Ansätze:
1. Direkte API-Integration
Das einfachste Muster: Ihre Anwendung sendet eine Anfrage an die LLM-API (z.B. OpenAI, Anthropic) und verarbeitet die Antwort weiter. Geeignet für: Textgenerierung, Klassifikation, Übersetzung, Zusammenfassung von klar definierten Eingaben.
2. RAG — Retrieval-Augmented Generation
RAG ist das wichtigste Muster für Unternehmensanwendungen. Das Prinzip: Bevor das LLM eine Anfrage beantwortet, werden relevante Dokumente aus Ihrer Wissensdatenbank abgerufen (Retrieval) und dem Modell als Kontext mitgegeben (Augmented Generation).
Warum das wichtig ist: LLMs wissen nichts über Ihr Unternehmen, Ihre internen Prozesse oder Ihre aktuellen Produkte. Mit RAG können Sie das Modell mit Ihrem eigenen Wissen „anreichern" — ohne das Modell selbst zu trainieren.
Ein RAG-System besteht typischerweise aus:
- Dokumentenindexierung: Ihre Dokumente werden in kleine Abschnitte aufgeteilt und als Vektoren in einer Datenbank gespeichert.
- Semantische Suche: Bei einer Anfrage wird nach den semantisch ähnlichsten Dokumentenabschnitten gesucht — nicht nach Stichwörtern, sondern nach Bedeutung.
- Kontextanreicherung: Die gefundenen Abschnitte werden dem LLM als Kontext übergeben, damit es eine fundierte Antwort generieren kann.
3. KI-Agenten mit Tool-Use
Agenten gehen einen Schritt weiter: Das LLM kann nicht nur Texte generieren, sondern eigenständig Aktionen ausführen — Datenbanken abfragen, APIs aufrufen, Kalendereinträge erstellen, E-Mails versenden. Dafür werden dem Modell „Tools" bereitgestellt, die es bei Bedarf aufruft.
Agenten eignen sich für komplexe, mehrstufige Aufgaben, bei denen das System je nach Situation unterschiedlich reagieren muss. Beispiel: Ein Kundenservice-Agent, der Bestellstatus prüft, Rückerstattungen auslöst und Kunden per E-Mail informiert — vollautomatisch.
Vektordatenbanken: das Gedächtnis des Systems
Für RAG-Systeme sind Vektordatenbanken entscheidend. Im Gegensatz zu klassischen Datenbanken speichern sie keine Zeilen und Spalten, sondern mathematische Repräsentationen von Textbedeutungen (sogenannte Embeddings). Die semantische Ähnlichkeitssuche funktioniert dann blitzschnell — auch über Millionen von Dokumenten.
Populäre Lösungen sind Pinecone, Weaviate, Chroma oder pgvector (PostgreSQL-Erweiterung). Für den Einstieg im Mittelstand empfehlen wir oft pgvector, da es sich nahtlos in bestehende PostgreSQL-Datenbankinfrastruktur integriert.
Datenschutz und DSGVO: Was Entscheider wissen müssen
Sobald personenbezogene Daten an externe LLM-APIs übertragen werden, gelten DSGVO-Anforderungen. Drei Punkte sind besonders relevant:
- Auftragsverarbeitungsvertrag (AVV): Mit jedem API-Anbieter muss ein AVV abgeschlossen werden. OpenAI, Anthropic und Google bieten diese an.
- Datensparsamkeit: Übertragen Sie nur die Daten, die das Modell wirklich braucht. Personenbezogene Daten sollten vor der Übertragung anonymisiert oder pseudonymisiert werden, wenn möglich.
- On-Premise-Alternativen: Für besonders sensible Daten gibt es Open-Source-Modelle (z.B. Llama, Mistral), die lokal betrieben werden können — ohne Datenweitergabe an externe Anbieter.
Kosten realistisch einschätzen
LLM-APIs werden nach Token abgerechnet (vereinfacht: nach Zeichenmenge). Die Kosten variieren stark je nach Modell und Volumen. Als Orientierung für ein mittelständisches Unternehmen mit moderatem Volumen:
- Einfache Klassifikations-Tasks: wenige Euro pro Monat
- RAG-System mit 50–100 Anfragen täglich: 20–100 € pro Monat
- Komplexe Agenten mit vielen Tool-Calls: 200–800 € pro Monat
Diese Zahlen sind Richtwerte — das tatsächliche Volumen, die Prompt-Länge und das gewählte Modell bestimmen die Endkosten. Eine sorgfältige Kostenschätzung gehört zu jedem Konzept, das wir erstellen.
Fazit: Welches Muster für welchen Anwendungsfall?
Direkte API-Integration für einfache, klar definierte Tasks. RAG für alles, was auf internem Unternehmenswissen basieren soll. Agenten für komplexe, mehrstufige Automatisierungen mit externen Aktionen.
In den meisten Beratungsprojekten beginnen wir mit einem RAG-System, weil es den schnellsten messbaren Mehrwert liefert und technisch gut beherrschbar ist. Agenten kommen in einem zweiten Schritt, wenn die Grundlagen stehen.