Der KI-Tab konfiguriert alle KI-Komponenten: Embedding- und LLM-Backends, Ingestion-Parameter,
Retrieval-Strategie, Wissensgraph und Prompt-Templates. Er ist in 5 Sub-Tabs gegliedert.
Sub-Tab: Modelle & Backend
Zentrale Verwaltung aller KI-Backends. Jedes Backend hat eine Kategorie, einen Provider,
ein Modell und eine Priorität. KIara wählt automatisch das aktive Backend mit der
niedrigsten Priorität (1 = bevorzugt).
Kategorien & Provider
Kategorie
Provider
Beschreibung
Embedding
Ollama, OpenAI, Voyage
Vektorisierung von Text-Chunks für die Suche.
Bestimmt die Qdrant-Collection und Vektordimension.
LLM
Ollama
Lokales Sprachmodell für Antwortgenerierung (z.B. qwen3:8b).
Wird für Standard- und Agent-Modus verwendet.
Cloud
Anthropic, OpenAI
Cloud-basierte LLMs (Claude, GPT). Höhere Qualität, aber Kosten pro Token.
Wird als Alternative oder Fallback zum lokalen LLM konfiguriert.
VLM
Ollama
Vision Language Model für Bildbeschreibungen bei der Indexierung.
Wird nur bei aktiviertem VLM in der Datenquelle verwendet.
DDU
Docling
Deep Document Understanding — konvertiert PDF/Office-Dokumente über ein
Deep-Learning-Modell zu Markdown. Läuft als separater Service (Docling-Proxy).
URL des Docling-Proxy-Services. Leer = lokale Installation.
http://10.0.12.16:5001 (Docling-Proxy auf dem GPU-Server).
Verbindungstests
Provider
Was wird getestet
Ergebnis bei Erfolg
Ollama
HTTP-Erreichbarkeit + Modell-Liste abfragen.
»Erreichbar (N Modelle)« + Dropdown wird befüllt.
Anthropic / OpenAI (LLM)
API-Key validieren + Modell-Liste abfragen.
Modell-Dropdown wird befüllt.
OpenAI / Voyage (Embedding)
Probe-Embedding generieren (validiert Key + Modell + Dimension).
Dimension wird angezeigt und validiert.
Docling (DDU)
Erreichbarkeit des Docling-Proxy prüfen.
»Verfügbar«.
Tipp: Nach dem Erstellen eines Backends immer den Test-Button in der
Tabelle (↻) klicken. Der Status wird gespeichert (last_test_ok,
last_test_at, last_test_error) und ist so auch später sichtbar.
Sub-Tab: Ingestion
Globale Einstellungen für die Dokumenten-Indexierung. Diese Werte gelten als
Systemstandard — einzelne Datenquellen können sie überschreiben
(siehe Datenquellen-Guide).
Chunk-Parameter
Feld
Typ
Standard
Beschreibung
Empfehlung
Chunk-Größe
Zahl
1000
Maximale Zeichen pro Chunk (bei custom-Strategie).
800–1200 für die meisten Anwendungsfälle.
Zu kleine Chunks verlieren Kontext, zu große verwässern die Relevanz.
Chunk-Overlap
Zahl
200
Überlappung zwischen aufeinanderfolgenden Chunks (Zeichen).
10–20% der Chunk-Größe. Verhindert, dass relevante
Sätze an Chunk-Grenzen verloren gehen.
Batch-Größe
Zahl
100
Chunks pro Batch beim Embedding-Upload.
50–200. Größere Batches sind schneller, brauchen aber
mehr RAM/VRAM. Bei Cloud-Providern API-Limits beachten
(OpenAI: max 2048, Voyage: max 1000).
VLM-Prompt
Feld
Typ
Beschreibung
VLM-Prompt
Textarea
Prompt für die KI-Bildbeschreibung. Bestimmt, wie Bilder bei der
Indexierung beschrieben werden. Leer = Standard-Prompt.
Tipp — Standard-Prompt: Der Default-Prompt ist auf deutsche Sprache und
technische Inhalte optimiert (Zeichnungen, Typenschilder, Fotos). Er kann angepasst werden,
z.B. für medizinische Bilder oder spezifische Branchenanforderungen. Button
»Auf Standard zurücksetzen« stellt den Original-Prompt wieder her.
Ausgeschlossene Dateitypen
Feld
Typ
Beschreibung
Blocklist
Textarea
Eine Dateiendung pro Zeile (mit Punkt). Dateien mit diesen Endungen
werden bei aktiviertem »Alle Textdateien akzeptieren«
trotzdem übersprungen. Betrifft 70+ Endungen: Zertifikate, Archive,
Bilder, Audio/Video, Executables, Fonts, Datenbanken, temp-Dateien.
Tipp: Die Blocklist greift nur wenn die Datenquellen-Option
»Alle Textdateien akzeptieren« aktiv ist. Bei Standard-Dateityp-Erkennung
(ohne diese Option) werden ohnehin nur bekannte Formate (.pdf, .docx, .txt, ...) verarbeitet.
Late Chunking
Late Chunking erzeugt kontextbewusste Embeddings, indem das gesamte Dokument
durch den Transformer geschickt und erst danach pro Chunk ein Vektor erzeugt
wird (Mean-Pooling ueber die Token des jeweiligen Segments). Dadurch traegt
jeder Chunk-Vektor den Kontext des gesamten Dokuments — Pronomen,
Rueckverweise und Fachbegriffe werden korrekt aufgeloest.
Feld
Typ
Standard
Beschreibung
Late Chunking aktivieren
Toggle
An
Globaler Schalter. Nur wirksam fuer unterstuetzte Embedding-Modelle
und Ollama-Provider. Nicht verfuegbar fuer Cloud-Embedding-APIs.
Wichtig: Aenderungen wirken sich nur auf zukuenftige Indexierungen aus.
Fuer bestehende Datenquellen ist ein Re-Index erforderlich.
Ausfuehrliche Dokumentation (Voraussetzungen, Fallback-Verhalten, Wechselwirkung
mit Contextual Retrieval, Speicherbedarf) im
eigenen Guide »Late Chunking«.
Sub-Tab: Retrieval
Konfiguration der Suchstrategie: Wie werden relevante Chunks für eine Benutzer-Anfrage
gefunden? KIara unterstützt Vektor-Suche, optionale Hybrid-Suche (BM25/Elasticsearch),
Reranking und Query-Expansion.
Hybrid-Suche
Feld
Typ
Standard
Beschreibung
Empfehlung
Methode
Dropdown
Keine
Keyword-Suche zusätzlich zur Vektor-Suche. Keine: Nur Vektor-Suche (Qdrant). BM25 (In-Memory): Klassische Keyword-Suche, schnell, kein Extra-Service. Elasticsearch: Verteilte Volltextsuche mit Fuzzy-Matching.
Elasticsearch empfohlen für Produktionsumgebungen — skaliert
besser und bietet Fuzzy-Suche. BM25 ist gut für kleine Datenbestände oder Tests.
AUTO empfohlen — toleriert Tippfehler ohne die Präzision
zu stark zu senken.
Elasticsearch Index-Verwaltung
Button
Beschreibung
Index aufbauen
Löscht den bestehenden Index und baut ihn aus allen Qdrant-Chunks neu auf.
Integrität prüfen
Vergleicht eine 500er-Stichprobe zwischen ES und Qdrant.
Index löschen
Entfernt den ES-Index vollständig.
RRF-K (Reciprocal Rank Fusion)
Feld
Typ
Standard
Beschreibung
Empfehlung
RRF-K
Zahl
60
Glättungsparameter für die Rang-Fusion von Vektor-Suche und Keyword-Suche.
Höhere Werte gewichten die Rangfolge stärker, niedrigere die Score-Differenzen.
60 ist der Standardwert aus der Literatur. Anpassung nur bei spezifischen Retrieval-Problemen.
Reranking
Cross-Encoder Reranking sortiert die initialen Suchergebnisse nach semantischer
Relevanz um. Höherer Qualitätgewinn, aber zusätzliche Latenz.
Feld
Typ
Standard
Beschreibung
Empfehlung
Aktivieren
Checkbox
Aus
Cross-Encoder Reranking ein-/ausschalten.
Empfohlen, wenn Antwortqualität wichtiger als Latenz ist.
Rerank-Modell
Text
cross-encoder/ms-marco-MiniLM-L-6-v2
HuggingFace-Modellname des Cross-Encoders.
Das Standard-Modell bietet ein gutes Verhältnis aus Qualität und Geschwindigkeit.
Rerank Top-K
Zahl
5
Anzahl der Top-Chunks nach dem Reranking, die an das LLM weitergegeben werden.
5–10. Mehr Chunks = mehr Kontext, aber auch mehr Rauschen.
Fetch-Multiplikator
Zahl
3
Faktor für die initiale Suche: Top-K × Multiplikator Chunks werden
aus Qdrant geholt, dann reranked auf Top-K.
3. Höhere Werte verbessern die Recall-Rate, erhöhen aber die Reranking-Zeit.
Query-Expansion
Feld
Typ
Standard
Beschreibung
Empfehlung
Aktivieren
Checkbox
Aus
Das LLM generiert alternative Formulierungen der Benutzer-Anfrage.
Diese werden parallel gesucht, die Ergebnisse vereinigt.
Hilfreich bei kurzen oder mehrdeutigen Anfragen. Erhöht die Latenz
um einen LLM-Call, verbessert aber die Abdeckung.
Kontext-Limits & weitere Optionen
Feld
Typ
Standard
Bereich
Beschreibung
Max. Kontext-Chunks
Zahl
80
5 – 500
Obergrenze der Chunks im LLM-Kontext. Schützt vor Kontext-Überlauf
bei Modellen mit kleinem Context-Window.
Agent-Deduplizierung
Checkbox
An
—
Filtert doppelte Chunks im Agent-Tool-Loop. Verhindert, dass bei
mehreren Suchanfragen dieselben Chunks mehrfach im Kontext landen.
Worker-Prozesse
Zahl
4
1 – 16
Anzahl der Uvicorn-Worker für die Chat-UI.
Änderungen erfordern einen Service-Restart.
Tipp — Retrieval-Strategie zusammenstellen:
Minimal (schnell): Nur Vektor-Suche, kein Reranking → niedrigste Latenz
Maximal (Qualität): Vektor + ES + Reranking + Query-Expansion → beste Ergebnisse, höchste Latenz
Sub-Tab: Wissensgraph
GraphRAG ergänzt die Vektor-Suche um einen Wissensgraph mit Entitäten (Kunden, Artikel,
Aufträge, ...) und deren Beziehungen. Entitäten werden bei der Indexierung durch ein
LLM extrahiert und in PostgreSQL gespeichert.
Aktivierung
Feld
Typ
Standard
Beschreibung
Wissensgraph aktivieren
Checkbox
Aus
Aktiviert die Graph-Traversal-Suche bei Benutzer-Anfragen.
Entity-Extraction bei Indexierung
Checkbox
An
Extrahiert bei jeder Indexierung Entitäten und Relationen.
Erhöht die Indexierungszeit um ca. 1–2s pro Chunk (LLM-Call).
Einstellungen
Feld
Typ
Standard
Bereich
Beschreibung
Max. Traversierungstiefe
Zahl
2
1 – 4
Maximale Pfad-Tiefe bei der Graph-Suche (BFS).
Max. Chunks pro Graph-Query
Zahl
20
5 – 50
Obergrenze der Chunks, die aus dem Graph-Traversal zurückkommen.
KPI-Dashboard
Das Dashboard aktualisiert sich automatisch alle 15 Sekunden und zeigt:
ERP-Import / Extraction: Zähler der jeweiligen Quelle
Aktionen
Button
Beschreibung
Bestätigung
ERP-Stammdaten importieren
Importiert Kunden, Artikel, Aufträge etc. aus der ERP-Schnittstelle in den Graph.
Ja
Graph leeren
Löscht alle Knoten und Kanten. Kann nicht rückgängig gemacht werden.
Ja
Achtung: Der Wissensgraph erhöht die Indexierungszeit erheblich
(LLM-Call pro Chunk). Bei 10.000 Chunks und 2s/Extraction sind das ~5,5 Stunden
zusätzliche Indexierungszeit. Für die meisten Anwendungsfälle reicht die
Vektor-Suche allein — der Graph lohnt sich vor allem bei stark verknüpften
ERP-Daten (Kunden → Aufträge → Artikel).
Sub-Tab: Chat (Prompt-Templates)
Prompt-Templates steuern, wie das LLM Anfragen beantwortet. Jedes Template definiert
einen System-Prompt und einen Chain-Typ (Standard, Unchained, Agent). Benutzer können
im Chat-Dropdown zwischen den aktiven Templates wählen.
Template-Tabelle
Spalte
Beschreibung
Name / Label
Interner Name + Anzeige-Label. System-Templates sind mit Badge markiert.
Typ
Chain-Typ als Badge: Standard (blau), Unchained (orange), Agent (lila).
Chat
Toggle: Im Chat-Dropdown für Benutzer sichtbar.
Aktiv
Toggle: Template ist verwendbar.
Template-Typen (Chain-Types)
Typ
Beschreibung
RAG-Kontext
Tools
Standard
Klassisches RAG: Frage → Retrieval → LLM-Antwort mit Kontext.
Das Standardverhalten für die meisten Anfragen.
Ja
Nein
Unchained
Direkt-LLM ohne RAG-Kontext. Das LLM antwortet nur aus seinem
Trainings-Wissen. Nützlich für allgemeine Fragen oder kreative Aufgaben.
Nein
Nein
Agent
ReAct-Agent mit Tool-Loop. Das LLM kann Tools aufrufen (Suche, ERP-Abfragen,
Berechnungen, ...) und iterativ eine Antwort erarbeiten.
Via Tools
Ja
Platzhalter
Platzhalter
Chain-Typ
Beschreibung
{context}
Standard (Pflicht)
Wird durch die gefundenen Kontext-Chunks ersetzt.
{question}
Standard (Pflicht)
Wird durch die Benutzer-Frage ersetzt.
{tools_prompt}
Agent (Pflicht)
Wird durch die Liste der verfügbaren Tools ersetzt.
Tipp: Unchained-Templates haben keine Pflicht-Platzhalter — der gesamte
Prompt-Text wird direkt als System-Prompt an das LLM gesendet. Ideal für spezialisierte
Rollen (z.B. »Du bist ein IT-Helpdesk-Assistent«).
Templates erstellen
Feld
Typ
Pflicht
Beschreibung
Interner Name
Text
Ja
Eindeutiger Bezeichner (z.B. it_helpdesk). Kann nachträglich nicht geändert werden.
Anzeige-Label
Text
Nein
Name im Chat-Dropdown (z.B. »IT-Helpdesk«).
Chain-Typ
Dropdown
Ja
Standard / Unchained / Agent.
Beschreibung
Text
Nein
Kurzbeschreibung für die Admin-UI.
Template-Inhalt
Textarea
Ja
Der System-Prompt mit Platzhaltern.
Als Chat-Modus anzeigen
Checkbox
Nein
Wenn aktiviert, erscheint das Template im Chat-Modus-Dropdown.
Erweiterte Felder (im Expand-Detail)
Feld
Typ
Beschreibung
Antwort-Prompt (nur Agent)
Textarea
Optionaler finaler Prompt, der nach allen Tool-Ergebnissen an das LLM gesendet wird.
Badge-Farbe
Text
Hex-Farbe für das Badge im Chat-Dropdown (z.B. #ff6b35).
Sortierung
Zahl
Reihenfolge im Chat-Dropdown (0 = oben).
Tipp: System-Templates (is_system=1) können bearbeitet
aber nicht gelöscht werden. Das schützt die Standard-Prompts vor versehentlichem Löschen.
Eigene Templates können frei erstellt und gelöscht werden.
API-Endpunkte
Die vollständige API-Referenz wird dynamisch aus der Admin-Registry generiert: