KI

Der KI-Tab konfiguriert alle KI-Komponenten: Embedding- und LLM-Backends, Ingestion-Parameter, Retrieval-Strategie, Wissensgraph und Prompt-Templates. Er ist in 5 Sub-Tabs gegliedert.

Sub-Tab: Modelle & Backend

Zentrale Verwaltung aller KI-Backends. Jedes Backend hat eine Kategorie, einen Provider, ein Modell und eine Priorität. KIara wählt automatisch das aktive Backend mit der niedrigsten Priorität (1 = bevorzugt).

Kategorien & Provider

Kategorie	Provider	Beschreibung
Embedding	Ollama, OpenAI, Voyage	Vektorisierung von Text-Chunks für die Suche. Bestimmt die Qdrant-Collection und Vektordimension.
LLM	Ollama	Lokales Sprachmodell für Antwortgenerierung (z.B. `qwen3:8b`). Wird für Standard- und Agent-Modus verwendet.
Cloud	Anthropic, OpenAI	Cloud-basierte LLMs (Claude, GPT). Höhere Qualität, aber Kosten pro Token. Wird als Alternative oder Fallback zum lokalen LLM konfiguriert.
VLM	Ollama	Vision Language Model für Bildbeschreibungen bei der Indexierung. Wird nur bei aktiviertem VLM in der Datenquelle verwendet.
DDU	Docling	Deep Document Understanding — konvertiert PDF/Office-Dokumente über ein Deep-Learning-Modell zu Markdown. Läuft als separater Service (Docling-Proxy).

Backend-Tabelle — Spalten

Spalte	Beschreibung
Name	Frei wählbarer Anzeigename (z.B. »GPU-Server 1«).
Kategorie	Farbiges Badge: Embedding / LLM / Cloud / VLM / DDU.
Provider	Technischer Provider: Ollama, Anthropic, OpenAI, Voyage, Docling.
Modell	Modellname (z.B. `qwen3:8b`, `claude-sonnet-4-20250514`).
URL	Ollama-URL oder Cloud-Base-URL.
Prio	Priorität (1-100). Niedrig = bevorzugt.
Status	Letzter Verbindungstest: OK (grün) / Fehler (rot) / Nicht getestet.
Aktiv	Toggle: Ein/Aus.
Aktionen	Test, Bearbeiten, Löschen.

Backend erstellen / bearbeiten

Gemeinsame Felder (alle Kategorien)

Feld	Typ	Standard	Beschreibung	Empfehlung
`Name`	Text	(auto)	Anzeigename für die Backend-Tabelle.	Sprechend benennen: `Ollama GPU-Server`, `Anthropic Claude`.
`Priorität`	Zahl	`10`	1 = höchste Priorität, 100 = niedrigste.	Primäres Backend: `10`. Fallback: `50`. Nur bei Bedarf: `90`.
`Aktiv`	Toggle	An	Deaktivierte Backends werden bei der Auswahl übersprungen.	Backends nicht löschen, sondern deaktivieren — so bleibt die Config erhalten.

Ollama-Backends (Embedding, LLM, VLM)

Feld	Typ	Beschreibung	Empfehlung
`Ollama URL`	Text + Test-Button	URL des Ollama-Servers.	Lokal: `http://localhost:11434` Remote GPU: `http://10.0.12.16:11434`
`Modell`	Dropdown / Text	Nach erfolgreichem Test wird ein Dropdown mit verfügbaren Modellen angezeigt. Alternativ: manuell eingeben.	Embedding: `nomic-embed-text` LLM: `qwen3:8b` VLM: je nach Verfügbarkeit

Cloud-Backends (Anthropic, OpenAI)

Feld	Typ	Beschreibung	Empfehlung
`Base URL`	Text	Optionale alternative API-URL (für Proxies oder Azure-Endpoints). Leer = Standard-API.	Normalerweise leer lassen.
`API-Key`	Passwort	API-Schlüssel. Wird AES-verschlüsselt gespeichert.	Anthropic: Beginnt mit `sk-ant-`. OpenAI: Beginnt mit `sk-`.
`Modell`	Dropdown / Text	Nach Test wird ein Dropdown mit verfügbaren Modellen angezeigt.	Anthropic: `claude-sonnet-4-20250514` OpenAI: `gpt-4o`

Cloud-Embedding (OpenAI, Voyage)

Feld	Typ	Beschreibung	Empfehlung
`API-Key`	Passwort	API-Schlüssel des Embedding-Providers.	Voyage: Beginnt mit `pa-`.
`Modell`	Dropdown	Statische Modell-Liste (OpenAI: text-embedding-3-small/large, Voyage: voyage-3/lite).	Siehe VektorDB-Guide: Embedding-Modelle.

DDU (Docling)

Feld	Typ	Beschreibung	Empfehlung
`URL`	Text	URL des Docling-Proxy-Services. Leer = lokale Installation.	`http://10.0.12.16:5001` (Docling-Proxy auf dem GPU-Server).

Verbindungstests

Provider	Was wird getestet	Ergebnis bei Erfolg
Ollama	HTTP-Erreichbarkeit + Modell-Liste abfragen.	»Erreichbar (N Modelle)« + Dropdown wird befüllt.
Anthropic / OpenAI (LLM)	API-Key validieren + Modell-Liste abfragen.	Modell-Dropdown wird befüllt.
OpenAI / Voyage (Embedding)	Probe-Embedding generieren (validiert Key + Modell + Dimension).	Dimension wird angezeigt und validiert.
Docling (DDU)	Erreichbarkeit des Docling-Proxy prüfen.	»Verfügbar«.

Tipp: Nach dem Erstellen eines Backends immer den Test-Button in der Tabelle (↻) klicken. Der Status wird gespeichert (last_test_ok, last_test_at, last_test_error) und ist so auch später sichtbar.

Sub-Tab: Ingestion

Globale Einstellungen für die Dokumenten-Indexierung. Diese Werte gelten als Systemstandard — einzelne Datenquellen können sie überschreiben (siehe Datenquellen-Guide).

Chunk-Parameter

Feld	Typ	Standard	Beschreibung	Empfehlung
`Chunk-Größe`	Zahl	`1000`	Maximale Zeichen pro Chunk (bei `custom`-Strategie).	800–1200 für die meisten Anwendungsfälle. Zu kleine Chunks verlieren Kontext, zu große verwässern die Relevanz.
`Chunk-Overlap`	Zahl	`200`	Überlappung zwischen aufeinanderfolgenden Chunks (Zeichen).	10–20% der Chunk-Größe. Verhindert, dass relevante Sätze an Chunk-Grenzen verloren gehen.
`Batch-Größe`	Zahl	`100`	Chunks pro Batch beim Embedding-Upload.	50–200. Größere Batches sind schneller, brauchen aber mehr RAM/VRAM. Bei Cloud-Providern API-Limits beachten (OpenAI: max 2048, Voyage: max 1000).

VLM-Prompt

Feld	Typ	Beschreibung
`VLM-Prompt`	Textarea	Prompt für die KI-Bildbeschreibung. Bestimmt, wie Bilder bei der Indexierung beschrieben werden. Leer = Standard-Prompt.

Tipp — Standard-Prompt: Der Default-Prompt ist auf deutsche Sprache und technische Inhalte optimiert (Zeichnungen, Typenschilder, Fotos). Er kann angepasst werden, z.B. für medizinische Bilder oder spezifische Branchenanforderungen. Button »Auf Standard zurücksetzen« stellt den Original-Prompt wieder her.

Ausgeschlossene Dateitypen

Feld	Typ	Beschreibung
`Blocklist`	Textarea	Eine Dateiendung pro Zeile (mit Punkt). Dateien mit diesen Endungen werden bei aktiviertem »Alle Textdateien akzeptieren« trotzdem übersprungen. Betrifft 70+ Endungen: Zertifikate, Archive, Bilder, Audio/Video, Executables, Fonts, Datenbanken, temp-Dateien.

Tipp: Die Blocklist greift nur wenn die Datenquellen-Option »Alle Textdateien akzeptieren« aktiv ist. Bei Standard-Dateityp-Erkennung (ohne diese Option) werden ohnehin nur bekannte Formate (.pdf, .docx, .txt, ...) verarbeitet.

Late Chunking

Late Chunking erzeugt kontextbewusste Embeddings, indem das gesamte Dokument durch den Transformer geschickt und erst danach pro Chunk ein Vektor erzeugt wird (Mean-Pooling ueber die Token des jeweiligen Segments). Dadurch traegt jeder Chunk-Vektor den Kontext des gesamten Dokuments — Pronomen, Rueckverweise und Fachbegriffe werden korrekt aufgeloest.

Feld	Typ	Standard	Beschreibung
`Late Chunking aktivieren`	Toggle	An	Globaler Schalter. Nur wirksam fuer unterstuetzte Embedding-Modelle und Ollama-Provider. Nicht verfuegbar fuer Cloud-Embedding-APIs.

Wichtig: Aenderungen wirken sich nur auf zukuenftige Indexierungen aus. Fuer bestehende Datenquellen ist ein Re-Index erforderlich.

Ausfuehrliche Dokumentation (Voraussetzungen, Fallback-Verhalten, Wechselwirkung mit Contextual Retrieval, Speicherbedarf) im eigenen Guide »Late Chunking«.

Sub-Tab: Retrieval

Konfiguration der Suchstrategie: Wie werden relevante Chunks für eine Benutzer-Anfrage gefunden? KIara unterstützt Vektor-Suche, optionale Hybrid-Suche (BM25/Elasticsearch), Reranking und Query-Expansion.

Hybrid-Suche

Feld	Typ	Standard	Beschreibung	Empfehlung
`Methode`	Dropdown	`Keine`	Keyword-Suche zusätzlich zur Vektor-Suche. Keine: Nur Vektor-Suche (Qdrant). BM25 (In-Memory): Klassische Keyword-Suche, schnell, kein Extra-Service. Elasticsearch: Verteilte Volltextsuche mit Fuzzy-Matching.	Elasticsearch empfohlen für Produktionsumgebungen — skaliert besser und bietet Fuzzy-Suche. BM25 ist gut für kleine Datenbestände oder Tests.

Elasticsearch-Einstellungen (bei Auswahl »Elasticsearch«)

Feld	Typ	Standard	Beschreibung	Empfehlung
`URL`	Text	`http://localhost:9200`	Elasticsearch-Server-URL.	Auf dem gleichen Host: Standard belassen.
`Index-Name`	Text	`kiara`	Name des ES-Index.	Standard belassen, außer mehrere KIara-Instanzen auf einem ES-Server laufen.
`Fuzziness`	Dropdown	`Keine (exakt)`	Unscharfe Suche: `Keine` — Exakte Treffer. `AUTO` — Automatisch (empfohlen, längenabhängig). `1` — Max. 1 Zeichen Abweichung. `2` — Max. 2 Zeichen Abweichung.	AUTO empfohlen — toleriert Tippfehler ohne die Präzision zu stark zu senken.

Elasticsearch Index-Verwaltung

Button	Beschreibung
Index aufbauen	Löscht den bestehenden Index und baut ihn aus allen Qdrant-Chunks neu auf.
Integrität prüfen	Vergleicht eine 500er-Stichprobe zwischen ES und Qdrant.
Index löschen	Entfernt den ES-Index vollständig.

RRF-K (Reciprocal Rank Fusion)

Feld	Typ	Standard	Beschreibung	Empfehlung
`RRF-K`	Zahl	`60`	Glättungsparameter für die Rang-Fusion von Vektor-Suche und Keyword-Suche. Höhere Werte gewichten die Rangfolge stärker, niedrigere die Score-Differenzen.	60 ist der Standardwert aus der Literatur. Anpassung nur bei spezifischen Retrieval-Problemen.

Reranking

Cross-Encoder Reranking sortiert die initialen Suchergebnisse nach semantischer Relevanz um. Höherer Qualitätgewinn, aber zusätzliche Latenz.

Feld	Typ	Standard	Beschreibung	Empfehlung
`Aktivieren`	Checkbox	Aus	Cross-Encoder Reranking ein-/ausschalten.	Empfohlen, wenn Antwortqualität wichtiger als Latenz ist.
`Rerank-Modell`	Text	`cross-encoder/ms-marco-MiniLM-L-6-v2`	HuggingFace-Modellname des Cross-Encoders.	Das Standard-Modell bietet ein gutes Verhältnis aus Qualität und Geschwindigkeit.
`Rerank Top-K`	Zahl	`5`	Anzahl der Top-Chunks nach dem Reranking, die an das LLM weitergegeben werden.	5–10. Mehr Chunks = mehr Kontext, aber auch mehr Rauschen.
`Fetch-Multiplikator`	Zahl	`3`	Faktor für die initiale Suche: Top-K × Multiplikator Chunks werden aus Qdrant geholt, dann reranked auf Top-K.	3. Höhere Werte verbessern die Recall-Rate, erhöhen aber die Reranking-Zeit.

Query-Expansion

Feld	Typ	Standard	Beschreibung	Empfehlung
`Aktivieren`	Checkbox	Aus	Das LLM generiert alternative Formulierungen der Benutzer-Anfrage. Diese werden parallel gesucht, die Ergebnisse vereinigt.	Hilfreich bei kurzen oder mehrdeutigen Anfragen. Erhöht die Latenz um einen LLM-Call, verbessert aber die Abdeckung.

Kontext-Limits & weitere Optionen

Feld	Typ	Standard	Bereich	Beschreibung
`Max. Kontext-Chunks`	Zahl	`80`	5 – 500	Obergrenze der Chunks im LLM-Kontext. Schützt vor Kontext-Überlauf bei Modellen mit kleinem Context-Window.
`Agent-Deduplizierung`	Checkbox	An	—	Filtert doppelte Chunks im Agent-Tool-Loop. Verhindert, dass bei mehreren Suchanfragen dieselben Chunks mehrfach im Kontext landen.
`Worker-Prozesse`	Zahl	`4`	1 – 16	Anzahl der Uvicorn-Worker für die Chat-UI. Änderungen erfordern einen Service-Restart.

Tipp — Retrieval-Strategie zusammenstellen:

Minimal (schnell): Nur Vektor-Suche, kein Reranking → niedrigste Latenz
Standard: Vektor + Elasticsearch (Fuzziness: AUTO) + Reranking → gutes Gleichgewicht
Maximal (Qualität): Vektor + ES + Reranking + Query-Expansion → beste Ergebnisse, höchste Latenz

Sub-Tab: Wissensgraph

GraphRAG ergänzt die Vektor-Suche um einen Wissensgraph mit Entitäten (Kunden, Artikel, Aufträge, ...) und deren Beziehungen. Entitäten werden bei der Indexierung durch ein LLM extrahiert und in PostgreSQL gespeichert.

Aktivierung

Feld	Typ	Standard	Beschreibung
`Wissensgraph aktivieren`	Checkbox	Aus	Aktiviert die Graph-Traversal-Suche bei Benutzer-Anfragen.
`Entity-Extraction bei Indexierung`	Checkbox	An	Extrahiert bei jeder Indexierung Entitäten und Relationen. Erhöht die Indexierungszeit um ca. 1–2s pro Chunk (LLM-Call).

Einstellungen

Feld	Typ	Standard	Bereich	Beschreibung
`Max. Traversierungstiefe`	Zahl	`2`	1 – 4	Maximale Pfad-Tiefe bei der Graph-Suche (BFS).
`Max. Chunks pro Graph-Query`	Zahl	`20`	5 – 50	Obergrenze der Chunks, die aus dem Graph-Traversal zurückkommen.

KPI-Dashboard

Das Dashboard aktualisiert sich automatisch alle 15 Sekunden und zeigt:

Knoten gesamt / Kanten gesamt
Knoten nach Typ: Kunden, Lieferanten, Artikel, Aufträge, Fertigungsaufträge, Mitarbeiter, Dokumente, Themen, Chunks
Kanten nach Beziehung: Dynamisch aus Graph-Daten
ERP-Import / Extraction: Zähler der jeweiligen Quelle

Aktionen

Button	Beschreibung	Bestätigung
ERP-Stammdaten importieren	Importiert Kunden, Artikel, Aufträge etc. aus der ERP-Schnittstelle in den Graph.	Ja
Graph leeren	Löscht alle Knoten und Kanten. Kann nicht rückgängig gemacht werden.	Ja

Achtung: Der Wissensgraph erhöht die Indexierungszeit erheblich (LLM-Call pro Chunk). Bei 10.000 Chunks und 2s/Extraction sind das ~5,5 Stunden zusätzliche Indexierungszeit. Für die meisten Anwendungsfälle reicht die Vektor-Suche allein — der Graph lohnt sich vor allem bei stark verknüpften ERP-Daten (Kunden → Aufträge → Artikel).

Sub-Tab: Chat (Prompt-Templates)

Prompt-Templates steuern, wie das LLM Anfragen beantwortet. Jedes Template definiert einen System-Prompt und einen Chain-Typ (Standard, Unchained, Agent). Benutzer können im Chat-Dropdown zwischen den aktiven Templates wählen.

Template-Tabelle

Spalte	Beschreibung
Name / Label	Interner Name + Anzeige-Label. System-Templates sind mit Badge markiert.
Typ	Chain-Typ als Badge: Standard (blau), Unchained (orange), Agent (lila).
Chat	Toggle: Im Chat-Dropdown für Benutzer sichtbar.
Aktiv	Toggle: Template ist verwendbar.

Template-Typen (Chain-Types)

Typ	Beschreibung	RAG-Kontext	Tools
Standard	Klassisches RAG: Frage → Retrieval → LLM-Antwort mit Kontext. Das Standardverhalten für die meisten Anfragen.	Ja	Nein
Unchained	Direkt-LLM ohne RAG-Kontext. Das LLM antwortet nur aus seinem Trainings-Wissen. Nützlich für allgemeine Fragen oder kreative Aufgaben.	Nein	Nein
Agent	ReAct-Agent mit Tool-Loop. Das LLM kann Tools aufrufen (Suche, ERP-Abfragen, Berechnungen, ...) und iterativ eine Antwort erarbeiten.	Via Tools	Ja

Platzhalter

Platzhalter	Chain-Typ	Beschreibung
`{context}`	Standard (Pflicht)	Wird durch die gefundenen Kontext-Chunks ersetzt.
`{question}`	Standard (Pflicht)	Wird durch die Benutzer-Frage ersetzt.
`{tools_prompt}`	Agent (Pflicht)	Wird durch die Liste der verfügbaren Tools ersetzt.

Tipp: Unchained-Templates haben keine Pflicht-Platzhalter — der gesamte Prompt-Text wird direkt als System-Prompt an das LLM gesendet. Ideal für spezialisierte Rollen (z.B. »Du bist ein IT-Helpdesk-Assistent«).

Templates erstellen

Feld	Typ	Pflicht	Beschreibung
`Interner Name`	Text	Ja	Eindeutiger Bezeichner (z.B. `it_helpdesk`). Kann nachträglich nicht geändert werden.
`Anzeige-Label`	Text	Nein	Name im Chat-Dropdown (z.B. »IT-Helpdesk«).
`Chain-Typ`	Dropdown	Ja	Standard / Unchained / Agent.
`Beschreibung`	Text	Nein	Kurzbeschreibung für die Admin-UI.
`Template-Inhalt`	Textarea	Ja	Der System-Prompt mit Platzhaltern.
`Als Chat-Modus anzeigen`	Checkbox	Nein	Wenn aktiviert, erscheint das Template im Chat-Modus-Dropdown.

Erweiterte Felder (im Expand-Detail)

Feld	Typ	Beschreibung
`Antwort-Prompt` (nur Agent)	Textarea	Optionaler finaler Prompt, der nach allen Tool-Ergebnissen an das LLM gesendet wird.
`Badge-Farbe`	Text	Hex-Farbe für das Badge im Chat-Dropdown (z.B. `#ff6b35`).
`Sortierung`	Zahl	Reihenfolge im Chat-Dropdown (0 = oben).

Tipp: System-Templates (is_system=1) können bearbeitet aber nicht gelöscht werden. Das schützt die Standard-Prompts vor versehentlichem Löschen. Eigene Templates können frei erstellt und gelöscht werden.

API-Endpunkte

Die vollständige API-Referenz wird dynamisch aus der Admin-Registry generiert:

KI-API — Backends, Templates, Verbindungstests, Config
Cloud-API — Cloud-Provider-spezifische Funktionen
Elasticsearch-API — Index-Verwaltung