Der KI-Tab konfiguriert alle KI-Komponenten: Embedding- und LLM-Backends, Ingestion-Parameter,
Retrieval-Strategie, Wissensgraph und Prompt-Templates. Er ist in 5 Sub-Tabs gegliedert.
Sub-Tab: Modelle & Backend
Zentrale Verwaltung aller KI-Backends. Jedes Backend hat eine Kategorie, einen Provider,
ein Modell und eine Prioritaet. KIara waehlt automatisch das aktive Backend mit der
niedrigsten Prioritaet (1 = bevorzugt).
Kategorien & Provider
Kategorie
Provider
Beschreibung
Embedding
Ollama, OpenAI, Voyage
Vektorisierung von Text-Chunks fuer die Suche.
Bestimmt die Qdrant-Collection und Vektordimension.
LLM
Ollama
Lokales Sprachmodell fuer Antwortgenerierung (z.B. qwen3:8b).
Wird fuer Standard- und Agent-Modus verwendet.
Cloud
Anthropic, OpenAI
Cloud-basierte LLMs (Claude, GPT). Hoehere Qualitaet, aber Kosten pro Token.
Wird als Alternative oder Fallback zum lokalen LLM konfiguriert.
VLM
Ollama
Vision Language Model fuer Bildbeschreibungen bei der Indexierung.
Wird nur bei aktiviertem VLM in der Datenquelle verwendet.
DDU
Docling
Deep Document Understanding — konvertiert PDF/Office-Dokumente ueber ein
Deep-Learning-Modell zu Markdown. Laeuft als separater Service (Docling-Proxy).
URL des Docling-Proxy-Services. Leer = lokale Installation.
http://10.0.12.16:5001 (Docling-Proxy auf dem GPU-Server).
Verbindungstests
Provider
Was wird getestet
Ergebnis bei Erfolg
Ollama
HTTP-Erreichbarkeit + Modell-Liste abfragen.
»Erreichbar (N Modelle)« + Dropdown wird befuellt.
Anthropic / OpenAI (LLM)
API-Key validieren + Modell-Liste abfragen.
Modell-Dropdown wird befuellt.
OpenAI / Voyage (Embedding)
Probe-Embedding generieren (validiert Key + Modell + Dimension).
Dimension wird angezeigt und validiert.
Docling (DDU)
Erreichbarkeit des Docling-Proxy pruefen.
»Verfuegbar«.
Tipp: Nach dem Erstellen eines Backends immer den Test-Button in der
Tabelle (↻) klicken. Der Status wird gespeichert (last_test_ok,
last_test_at, last_test_error) und ist so auch spaeter sichtbar.
Sub-Tab: Ingestion
Globale Einstellungen fuer die Dokumenten-Indexierung. Diese Werte gelten als
Systemstandard — einzelne Datenquellen koennen sie ueberschreiben
(siehe Datenquellen-Guide).
Chunk-Parameter
Feld
Typ
Standard
Beschreibung
Empfehlung
Chunk-Groesse
Zahl
1000
Maximale Zeichen pro Chunk (bei custom-Strategie).
800–1200 fuer die meisten Anwendungsfaelle.
Zu kleine Chunks verlieren Kontext, zu grosse verwassern die Relevanz.
Chunk-Overlap
Zahl
200
Ueberlappung zwischen aufeinanderfolgenden Chunks (Zeichen).
10–20% der Chunk-Groesse. Verhindert, dass relevante
Saetze an Chunk-Grenzen verloren gehen.
Batch-Groesse
Zahl
100
Chunks pro Batch beim Embedding-Upload.
50–200. Groessere Batches sind schneller, brauchen aber
mehr RAM/VRAM. Bei Cloud-Providern API-Limits beachten
(OpenAI: max 2048, Voyage: max 1000).
VLM-Prompt
Feld
Typ
Beschreibung
VLM-Prompt
Textarea
Prompt fuer die KI-Bildbeschreibung. Bestimmt, wie Bilder bei der
Indexierung beschrieben werden. Leer = Standard-Prompt.
Tipp — Standard-Prompt: Der Default-Prompt ist auf deutsche Sprache und
technische Inhalte optimiert (Zeichnungen, Typenschilder, Fotos). Er kann angepasst werden,
z.B. fuer medizinische Bilder oder spezifische Branchenanforderungen. Button
»Auf Standard zuruecksetzen« stellt den Original-Prompt wieder her.
Ausgeschlossene Dateitypen
Feld
Typ
Beschreibung
Blocklist
Textarea
Eine Dateiendung pro Zeile (mit Punkt). Dateien mit diesen Endungen
werden bei aktiviertem »Alle Textdateien akzeptieren«
trotzdem uebersprungen. Betrifft 70+ Endungen: Zertifikate, Archive,
Bilder, Audio/Video, Executables, Fonts, Datenbanken, temp-Dateien.
Tipp: Die Blocklist greift nur wenn die Datenquellen-Option
»Alle Textdateien akzeptieren« aktiv ist. Bei Standard-Dateityp-Erkennung
(ohne diese Option) werden ohnehin nur bekannte Formate (.pdf, .docx, .txt, ...) verarbeitet.
Sub-Tab: Retrieval
Konfiguration der Suchstrategie: Wie werden relevante Chunks fuer eine Benutzer-Anfrage
gefunden? KIara unterstuetzt Vektor-Suche, optionale Hybrid-Suche (BM25/Elasticsearch),
Reranking und Query-Expansion.
Hybrid-Suche
Feld
Typ
Standard
Beschreibung
Empfehlung
Methode
Dropdown
Keine
Keyword-Suche zusaetzlich zur Vektor-Suche. Keine: Nur Vektor-Suche (Qdrant). BM25 (In-Memory): Klassische Keyword-Suche, schnell, kein Extra-Service. Elasticsearch: Verteilte Volltextsuche mit Fuzzy-Matching.
Elasticsearch empfohlen fuer Produktionsumgebungen — skaliert
besser und bietet Fuzzy-Suche. BM25 ist gut fuer kleine Datenbestaende oder Tests.
AUTO empfohlen — toleriert Tippfehler ohne die Praezision
zu stark zu senken.
Elasticsearch Index-Verwaltung
Button
Beschreibung
Index aufbauen
Loescht den bestehenden Index und baut ihn aus allen Qdrant-Chunks neu auf.
Integritaet pruefen
Vergleicht eine 500er-Stichprobe zwischen ES und Qdrant.
Index loeschen
Entfernt den ES-Index vollstaendig.
RRF-K (Reciprocal Rank Fusion)
Feld
Typ
Standard
Beschreibung
Empfehlung
RRF-K
Zahl
60
Glaettungsparameter fuer die Rang-Fusion von Vektor-Suche und Keyword-Suche.
Hoehere Werte gewichten die Rangfolge staerker, niedrigere die Score-Differenzen.
60 ist der Standardwert aus der Literatur. Anpassung nur bei spezifischen Retrieval-Problemen.
Reranking
Cross-Encoder Reranking sortiert die initialen Suchergebnisse nach semantischer
Relevanz um. Hoeherer Qualitaetgewinn, aber zusaetzliche Latenz.
Feld
Typ
Standard
Beschreibung
Empfehlung
Aktivieren
Checkbox
Aus
Cross-Encoder Reranking ein-/ausschalten.
Empfohlen, wenn Antwortqualitaet wichtiger als Latenz ist.
Rerank-Modell
Text
cross-encoder/ms-marco-MiniLM-L-6-v2
HuggingFace-Modellname des Cross-Encoders.
Das Standard-Modell bietet ein gutes Verhaeltnis aus Qualitaet und Geschwindigkeit.
Rerank Top-K
Zahl
5
Anzahl der Top-Chunks nach dem Reranking, die an das LLM weitergegeben werden.
5–10. Mehr Chunks = mehr Kontext, aber auch mehr Rauschen.
Fetch-Multiplikator
Zahl
3
Faktor fuer die initiale Suche: Top-K × Multiplikator Chunks werden
aus Qdrant geholt, dann reranked auf Top-K.
3. Hoehere Werte verbessern die Recall-Rate, erhoehen aber die Reranking-Zeit.
Query-Expansion
Feld
Typ
Standard
Beschreibung
Empfehlung
Aktivieren
Checkbox
Aus
Das LLM generiert alternative Formulierungen der Benutzer-Anfrage.
Diese werden parallel gesucht, die Ergebnisse vereinigt.
Hilfreich bei kurzen oder mehrdeutigen Anfragen. Erhoeht die Latenz
um einen LLM-Call, verbessert aber die Abdeckung.
Kontext-Limits & weitere Optionen
Feld
Typ
Standard
Bereich
Beschreibung
Max. Kontext-Chunks
Zahl
80
5 – 500
Obergrenze der Chunks im LLM-Kontext. Schuetzt vor Kontext-Ueberlauf
bei Modellen mit kleinem Context-Window.
Agent-Deduplizierung
Checkbox
An
—
Filtert doppelte Chunks im Agent-Tool-Loop. Verhindert, dass bei
mehreren Suchanfragen dieselben Chunks mehrfach im Kontext landen.
Worker-Prozesse
Zahl
4
1 – 16
Anzahl der Uvicorn-Worker fuer die Chat-UI.
Aenderungen erfordern einen Service-Restart.
Tipp — Retrieval-Strategie zusammenstellen:
Minimal (schnell): Nur Vektor-Suche, kein Reranking → niedrigste Latenz
Maximal (qualitaet): Vektor + ES + Reranking + Query-Expansion → beste Ergebnisse, hoechste Latenz
Sub-Tab: Wissensgraph
GraphRAG ergaenzt die Vektor-Suche um einen Wissensgraph mit Entitaeten (Kunden, Artikel,
Auftraege, ...) und deren Beziehungen. Entitaeten werden bei der Indexierung durch ein
LLM extrahiert und in PostgreSQL gespeichert.
Aktivierung
Feld
Typ
Standard
Beschreibung
Wissensgraph aktivieren
Checkbox
Aus
Aktiviert die Graph-Traversal-Suche bei Benutzer-Anfragen.
Entity-Extraction bei Indexierung
Checkbox
An
Extrahiert bei jeder Indexierung Entitaeten und Relationen.
Erhoeht die Indexierungszeit um ca. 1–2s pro Chunk (LLM-Call).
Einstellungen
Feld
Typ
Standard
Bereich
Beschreibung
Max. Traversierungstiefe
Zahl
2
1 – 4
Maximale Pfad-Tiefe bei der Graph-Suche (BFS).
Max. Chunks pro Graph-Query
Zahl
20
5 – 50
Obergrenze der Chunks, die aus dem Graph-Traversal zurueckkommen.
KPI-Dashboard
Das Dashboard aktualisiert sich automatisch alle 15 Sekunden und zeigt:
ERP-Import / Extraction: Zaehler der jeweiligen Quelle
Aktionen
Button
Beschreibung
Bestaetigung
ERP-Stammdaten importieren
Importiert Kunden, Artikel, Auftraege etc. aus der ERP-Schnittstelle in den Graph.
Ja
Graph leeren
Loescht alle Knoten und Kanten. Kann nicht rueckgaengig gemacht werden.
Ja
Achtung: Der Wissensgraph erhoeht die Indexierungszeit erheblich
(LLM-Call pro Chunk). Bei 10.000 Chunks und 2s/Extraction sind das ~5,5 Stunden
zusaetzliche Indexierungszeit. Fuer die meisten Anwendungsfaelle reicht die
Vektor-Suche allein — der Graph lohnt sich vor allem bei stark verknuepften
ERP-Daten (Kunden → Auftraege → Artikel).
Sub-Tab: Chat (Prompt-Templates)
Prompt-Templates steuern, wie das LLM Anfragen beantwortet. Jedes Template definiert
einen System-Prompt und einen Chain-Typ (Standard, Unchained, Agent). Benutzer koennen
im Chat-Dropdown zwischen den aktiven Templates waehlen.
Template-Tabelle
Spalte
Beschreibung
Name / Label
Interner Name + Anzeige-Label. System-Templates sind mit Badge markiert.
Typ
Chain-Typ als Badge: Standard (blau), Unchained (orange), Agent (lila).
Chat
Toggle: Im Chat-Dropdown fuer Benutzer sichtbar.
Aktiv
Toggle: Template ist verwendbar.
Template-Typen (Chain-Types)
Typ
Beschreibung
RAG-Kontext
Tools
Standard
Klassisches RAG: Frage → Retrieval → LLM-Antwort mit Kontext.
Das Standardverhalten fuer die meisten Anfragen.
Ja
Nein
Unchained
Direkt-LLM ohne RAG-Kontext. Das LLM antwortet nur aus seinem
Trainings-Wissen. Nuetzlich fuer allgemeine Fragen oder kreative Aufgaben.
Nein
Nein
Agent
ReAct-Agent mit Tool-Loop. Das LLM kann Tools aufrufen (Suche, ERP-Abfragen,
Berechnungen, ...) und iterativ eine Antwort erarbeiten.
Via Tools
Ja
Platzhalter
Platzhalter
Chain-Typ
Beschreibung
{context}
Standard (Pflicht)
Wird durch die gefundenen Kontext-Chunks ersetzt.
{question}
Standard (Pflicht)
Wird durch die Benutzer-Frage ersetzt.
{tools_prompt}
Agent (Pflicht)
Wird durch die Liste der verfuegbaren Tools ersetzt.
Tipp: Unchained-Templates haben keine Pflicht-Platzhalter — der gesamte
Prompt-Text wird direkt als System-Prompt an das LLM gesendet. Ideal fuer spezialisierte
Rollen (z.B. »Du bist ein IT-Helpdesk-Assistent«).
Templates erstellen
Feld
Typ
Pflicht
Beschreibung
Interner Name
Text
Ja
Eindeutiger Bezeichner (z.B. it_helpdesk). Kann nachtraeglich nicht geaendert werden.
Anzeige-Label
Text
Nein
Name im Chat-Dropdown (z.B. »IT-Helpdesk«).
Chain-Typ
Dropdown
Ja
Standard / Unchained / Agent.
Beschreibung
Text
Nein
Kurzbeschreibung fuer die Admin-UI.
Template-Inhalt
Textarea
Ja
Der System-Prompt mit Platzhaltern.
Als Chat-Modus anzeigen
Checkbox
Nein
Wenn aktiviert, erscheint das Template im Chat-Modus-Dropdown.
Erweiterte Felder (im Expand-Detail)
Feld
Typ
Beschreibung
Antwort-Prompt (nur Agent)
Textarea
Optionaler finaler Prompt, der nach allen Tool-Ergebnissen an das LLM gesendet wird.
Badge-Farbe
Text
Hex-Farbe fuer das Badge im Chat-Dropdown (z.B. #ff6b35).
Sortierung
Zahl
Reihenfolge im Chat-Dropdown (0 = oben).
Tipp: System-Templates (is_system=1) koennen bearbeitet
aber nicht geloescht werden. Das schuetzt die Standard-Prompts vor versehentlichem Loeschen.
Eigene Templates koennen frei erstellt und geloescht werden.
API-Endpunkte
Die vollstaendige API-Referenz wird dynamisch aus der Admin-Registry generiert: