WikiGuide: KI

KI

Der KI-Tab konfiguriert alle KI-Komponenten: Embedding- und LLM-Backends, Ingestion-Parameter, Retrieval-Strategie, Wissensgraph und Prompt-Templates. Er ist in 5 Sub-Tabs gegliedert.

Sub-Tab: Modelle & Backend

Zentrale Verwaltung aller KI-Backends. Jedes Backend hat eine Kategorie, einen Provider, ein Modell und eine Priorität. KIara wählt automatisch das aktive Backend mit der niedrigsten Priorität (1 = bevorzugt).

Kategorien & Provider

KategorieProviderBeschreibung
Embedding Ollama, OpenAI, Voyage Vektorisierung von Text-Chunks für die Suche. Bestimmt die Qdrant-Collection und Vektordimension.
LLM Ollama Lokales Sprachmodell für Antwortgenerierung (z.B. qwen3:8b). Wird für Standard- und Agent-Modus verwendet.
Cloud Anthropic, OpenAI Cloud-basierte LLMs (Claude, GPT). Höhere Qualität, aber Kosten pro Token. Wird als Alternative oder Fallback zum lokalen LLM konfiguriert.
VLM Ollama Vision Language Model für Bildbeschreibungen bei der Indexierung. Wird nur bei aktiviertem VLM in der Datenquelle verwendet.
DDU Docling Deep Document Understanding — konvertiert PDF/Office-Dokumente über ein Deep-Learning-Modell zu Markdown. Läuft als separater Service (Docling-Proxy).

Backend-Tabelle — Spalten

SpalteBeschreibung
NameFrei wählbarer Anzeigename (z.B. »GPU-Server 1«).
KategorieFarbiges Badge: Embedding / LLM / Cloud / VLM / DDU.
ProviderTechnischer Provider: Ollama, Anthropic, OpenAI, Voyage, Docling.
ModellModellname (z.B. qwen3:8b, claude-sonnet-4-20250514).
URLOllama-URL oder Cloud-Base-URL.
PrioPriorität (1-100). Niedrig = bevorzugt.
StatusLetzter Verbindungstest: OK (grün) / Fehler (rot) / Nicht getestet.
AktivToggle: Ein/Aus.
AktionenTest, Bearbeiten, Löschen.

Backend erstellen / bearbeiten

Gemeinsame Felder (alle Kategorien)

FeldTypStandardBeschreibungEmpfehlung
Name Text (auto) Anzeigename für die Backend-Tabelle. Sprechend benennen: Ollama GPU-Server, Anthropic Claude.
Priorität Zahl 10 1 = höchste Priorität, 100 = niedrigste. Primäres Backend: 10. Fallback: 50. Nur bei Bedarf: 90.
Aktiv Toggle An Deaktivierte Backends werden bei der Auswahl übersprungen. Backends nicht löschen, sondern deaktivieren — so bleibt die Config erhalten.

Ollama-Backends (Embedding, LLM, VLM)

FeldTypBeschreibungEmpfehlung
Ollama URL Text + Test-Button URL des Ollama-Servers. Lokal: http://localhost:11434
Remote GPU: http://10.0.12.16:11434
Modell Dropdown / Text Nach erfolgreichem Test wird ein Dropdown mit verfügbaren Modellen angezeigt. Alternativ: manuell eingeben. Embedding: nomic-embed-text
LLM: qwen3:8b
VLM: je nach Verfügbarkeit

Cloud-Backends (Anthropic, OpenAI)

FeldTypBeschreibungEmpfehlung
Base URL Text Optionale alternative API-URL (für Proxies oder Azure-Endpoints). Leer = Standard-API. Normalerweise leer lassen.
API-Key Passwort API-Schlüssel. Wird AES-verschlüsselt gespeichert. Anthropic: Beginnt mit sk-ant-.
OpenAI: Beginnt mit sk-.
Modell Dropdown / Text Nach Test wird ein Dropdown mit verfügbaren Modellen angezeigt. Anthropic: claude-sonnet-4-20250514
OpenAI: gpt-4o

Cloud-Embedding (OpenAI, Voyage)

FeldTypBeschreibungEmpfehlung
API-Key Passwort API-Schlüssel des Embedding-Providers. Voyage: Beginnt mit pa-.
Modell Dropdown Statische Modell-Liste (OpenAI: text-embedding-3-small/large, Voyage: voyage-3/lite). Siehe VektorDB-Guide: Embedding-Modelle.

DDU (Docling)

FeldTypBeschreibungEmpfehlung
URL Text URL des Docling-Proxy-Services. Leer = lokale Installation. http://10.0.12.16:5001 (Docling-Proxy auf dem GPU-Server).

Verbindungstests

ProviderWas wird getestetErgebnis bei Erfolg
Ollama HTTP-Erreichbarkeit + Modell-Liste abfragen. »Erreichbar (N Modelle)« + Dropdown wird befüllt.
Anthropic / OpenAI (LLM) API-Key validieren + Modell-Liste abfragen. Modell-Dropdown wird befüllt.
OpenAI / Voyage (Embedding) Probe-Embedding generieren (validiert Key + Modell + Dimension). Dimension wird angezeigt und validiert.
Docling (DDU) Erreichbarkeit des Docling-Proxy prüfen. »Verfügbar«.
Tipp: Nach dem Erstellen eines Backends immer den Test-Button in der Tabelle (↻) klicken. Der Status wird gespeichert (last_test_ok, last_test_at, last_test_error) und ist so auch später sichtbar.

Sub-Tab: Ingestion

Globale Einstellungen für die Dokumenten-Indexierung. Diese Werte gelten als Systemstandard — einzelne Datenquellen können sie überschreiben (siehe Datenquellen-Guide).

Chunk-Parameter

FeldTypStandardBeschreibungEmpfehlung
Chunk-Größe Zahl 1000 Maximale Zeichen pro Chunk (bei custom-Strategie). 800–1200 für die meisten Anwendungsfälle. Zu kleine Chunks verlieren Kontext, zu große verwässern die Relevanz.
Chunk-Overlap Zahl 200 Überlappung zwischen aufeinanderfolgenden Chunks (Zeichen). 10–20% der Chunk-Größe. Verhindert, dass relevante Sätze an Chunk-Grenzen verloren gehen.
Batch-Größe Zahl 100 Chunks pro Batch beim Embedding-Upload. 50–200. Größere Batches sind schneller, brauchen aber mehr RAM/VRAM. Bei Cloud-Providern API-Limits beachten (OpenAI: max 2048, Voyage: max 1000).

VLM-Prompt

FeldTypBeschreibung
VLM-Prompt Textarea Prompt für die KI-Bildbeschreibung. Bestimmt, wie Bilder bei der Indexierung beschrieben werden. Leer = Standard-Prompt.
Tipp — Standard-Prompt: Der Default-Prompt ist auf deutsche Sprache und technische Inhalte optimiert (Zeichnungen, Typenschilder, Fotos). Er kann angepasst werden, z.B. für medizinische Bilder oder spezifische Branchenanforderungen. Button »Auf Standard zurücksetzen« stellt den Original-Prompt wieder her.

Ausgeschlossene Dateitypen

FeldTypBeschreibung
Blocklist Textarea Eine Dateiendung pro Zeile (mit Punkt). Dateien mit diesen Endungen werden bei aktiviertem »Alle Textdateien akzeptieren« trotzdem übersprungen. Betrifft 70+ Endungen: Zertifikate, Archive, Bilder, Audio/Video, Executables, Fonts, Datenbanken, temp-Dateien.
Tipp: Die Blocklist greift nur wenn die Datenquellen-Option »Alle Textdateien akzeptieren« aktiv ist. Bei Standard-Dateityp-Erkennung (ohne diese Option) werden ohnehin nur bekannte Formate (.pdf, .docx, .txt, ...) verarbeitet.

Late Chunking

Late Chunking erzeugt kontextbewusste Embeddings, indem das gesamte Dokument durch den Transformer geschickt und erst danach pro Chunk ein Vektor erzeugt wird (Mean-Pooling ueber die Token des jeweiligen Segments). Dadurch traegt jeder Chunk-Vektor den Kontext des gesamten Dokuments — Pronomen, Rueckverweise und Fachbegriffe werden korrekt aufgeloest.

FeldTypStandardBeschreibung
Late Chunking aktivieren Toggle An Globaler Schalter. Nur wirksam fuer unterstuetzte Embedding-Modelle und Ollama-Provider. Nicht verfuegbar fuer Cloud-Embedding-APIs.
Wichtig: Aenderungen wirken sich nur auf zukuenftige Indexierungen aus. Fuer bestehende Datenquellen ist ein Re-Index erforderlich.

Ausfuehrliche Dokumentation (Voraussetzungen, Fallback-Verhalten, Wechselwirkung mit Contextual Retrieval, Speicherbedarf) im eigenen Guide »Late Chunking«.

Sub-Tab: Retrieval

Konfiguration der Suchstrategie: Wie werden relevante Chunks für eine Benutzer-Anfrage gefunden? KIara unterstützt Vektor-Suche, optionale Hybrid-Suche (BM25/Elasticsearch), Reranking und Query-Expansion.

Hybrid-Suche

FeldTypStandardBeschreibungEmpfehlung
Methode Dropdown Keine Keyword-Suche zusätzlich zur Vektor-Suche.
Keine: Nur Vektor-Suche (Qdrant).
BM25 (In-Memory): Klassische Keyword-Suche, schnell, kein Extra-Service.
Elasticsearch: Verteilte Volltextsuche mit Fuzzy-Matching.
Elasticsearch empfohlen für Produktionsumgebungen — skaliert besser und bietet Fuzzy-Suche. BM25 ist gut für kleine Datenbestände oder Tests.

Elasticsearch-Einstellungen (bei Auswahl »Elasticsearch«)

FeldTypStandardBeschreibungEmpfehlung
URL Text http://localhost:9200 Elasticsearch-Server-URL. Auf dem gleichen Host: Standard belassen.
Index-Name Text kiara Name des ES-Index. Standard belassen, außer mehrere KIara-Instanzen auf einem ES-Server laufen.
Fuzziness Dropdown Keine (exakt) Unscharfe Suche:
Keine — Exakte Treffer.
AUTO — Automatisch (empfohlen, längenabhängig).
1 — Max. 1 Zeichen Abweichung.
2 — Max. 2 Zeichen Abweichung.
AUTO empfohlen — toleriert Tippfehler ohne die Präzision zu stark zu senken.

Elasticsearch Index-Verwaltung

ButtonBeschreibung
Index aufbauenLöscht den bestehenden Index und baut ihn aus allen Qdrant-Chunks neu auf.
Integrität prüfenVergleicht eine 500er-Stichprobe zwischen ES und Qdrant.
Index löschenEntfernt den ES-Index vollständig.

RRF-K (Reciprocal Rank Fusion)

FeldTypStandardBeschreibungEmpfehlung
RRF-K Zahl 60 Glättungsparameter für die Rang-Fusion von Vektor-Suche und Keyword-Suche. Höhere Werte gewichten die Rangfolge stärker, niedrigere die Score-Differenzen. 60 ist der Standardwert aus der Literatur. Anpassung nur bei spezifischen Retrieval-Problemen.

Reranking

Cross-Encoder Reranking sortiert die initialen Suchergebnisse nach semantischer Relevanz um. Höherer Qualitätgewinn, aber zusätzliche Latenz.

FeldTypStandardBeschreibungEmpfehlung
Aktivieren Checkbox Aus Cross-Encoder Reranking ein-/ausschalten. Empfohlen, wenn Antwortqualität wichtiger als Latenz ist.
Rerank-Modell Text cross-encoder/ms-marco-MiniLM-L-6-v2 HuggingFace-Modellname des Cross-Encoders. Das Standard-Modell bietet ein gutes Verhältnis aus Qualität und Geschwindigkeit.
Rerank Top-K Zahl 5 Anzahl der Top-Chunks nach dem Reranking, die an das LLM weitergegeben werden. 5–10. Mehr Chunks = mehr Kontext, aber auch mehr Rauschen.
Fetch-Multiplikator Zahl 3 Faktor für die initiale Suche: Top-K × Multiplikator Chunks werden aus Qdrant geholt, dann reranked auf Top-K. 3. Höhere Werte verbessern die Recall-Rate, erhöhen aber die Reranking-Zeit.

Query-Expansion

FeldTypStandardBeschreibungEmpfehlung
Aktivieren Checkbox Aus Das LLM generiert alternative Formulierungen der Benutzer-Anfrage. Diese werden parallel gesucht, die Ergebnisse vereinigt. Hilfreich bei kurzen oder mehrdeutigen Anfragen. Erhöht die Latenz um einen LLM-Call, verbessert aber die Abdeckung.

Kontext-Limits & weitere Optionen

FeldTypStandardBereichBeschreibung
Max. Kontext-Chunks Zahl 80 5 – 500 Obergrenze der Chunks im LLM-Kontext. Schützt vor Kontext-Überlauf bei Modellen mit kleinem Context-Window.
Agent-Deduplizierung Checkbox An Filtert doppelte Chunks im Agent-Tool-Loop. Verhindert, dass bei mehreren Suchanfragen dieselben Chunks mehrfach im Kontext landen.
Worker-Prozesse Zahl 4 1 – 16 Anzahl der Uvicorn-Worker für die Chat-UI. Änderungen erfordern einen Service-Restart.
Tipp — Retrieval-Strategie zusammenstellen:
  • Minimal (schnell): Nur Vektor-Suche, kein Reranking → niedrigste Latenz
  • Standard: Vektor + Elasticsearch (Fuzziness: AUTO) + Reranking → gutes Gleichgewicht
  • Maximal (Qualität): Vektor + ES + Reranking + Query-Expansion → beste Ergebnisse, höchste Latenz

Sub-Tab: Wissensgraph

GraphRAG ergänzt die Vektor-Suche um einen Wissensgraph mit Entitäten (Kunden, Artikel, Aufträge, ...) und deren Beziehungen. Entitäten werden bei der Indexierung durch ein LLM extrahiert und in PostgreSQL gespeichert.

Aktivierung

FeldTypStandardBeschreibung
Wissensgraph aktivieren Checkbox Aus Aktiviert die Graph-Traversal-Suche bei Benutzer-Anfragen.
Entity-Extraction bei Indexierung Checkbox An Extrahiert bei jeder Indexierung Entitäten und Relationen. Erhöht die Indexierungszeit um ca. 1–2s pro Chunk (LLM-Call).

Einstellungen

FeldTypStandardBereichBeschreibung
Max. Traversierungstiefe Zahl 2 1 – 4 Maximale Pfad-Tiefe bei der Graph-Suche (BFS).
Max. Chunks pro Graph-Query Zahl 20 5 – 50 Obergrenze der Chunks, die aus dem Graph-Traversal zurückkommen.

KPI-Dashboard

Das Dashboard aktualisiert sich automatisch alle 15 Sekunden und zeigt:

  • Knoten gesamt / Kanten gesamt
  • Knoten nach Typ: Kunden, Lieferanten, Artikel, Aufträge, Fertigungsaufträge, Mitarbeiter, Dokumente, Themen, Chunks
  • Kanten nach Beziehung: Dynamisch aus Graph-Daten
  • ERP-Import / Extraction: Zähler der jeweiligen Quelle

Aktionen

ButtonBeschreibungBestätigung
ERP-Stammdaten importieren Importiert Kunden, Artikel, Aufträge etc. aus der ERP-Schnittstelle in den Graph. Ja
Graph leeren Löscht alle Knoten und Kanten. Kann nicht rückgängig gemacht werden. Ja
Achtung: Der Wissensgraph erhöht die Indexierungszeit erheblich (LLM-Call pro Chunk). Bei 10.000 Chunks und 2s/Extraction sind das ~5,5 Stunden zusätzliche Indexierungszeit. Für die meisten Anwendungsfälle reicht die Vektor-Suche allein — der Graph lohnt sich vor allem bei stark verknüpften ERP-Daten (Kunden → Aufträge → Artikel).

Sub-Tab: Chat (Prompt-Templates)

Prompt-Templates steuern, wie das LLM Anfragen beantwortet. Jedes Template definiert einen System-Prompt und einen Chain-Typ (Standard, Unchained, Agent). Benutzer können im Chat-Dropdown zwischen den aktiven Templates wählen.

Template-Tabelle

SpalteBeschreibung
Name / LabelInterner Name + Anzeige-Label. System-Templates sind mit Badge markiert.
TypChain-Typ als Badge: Standard (blau), Unchained (orange), Agent (lila).
ChatToggle: Im Chat-Dropdown für Benutzer sichtbar.
AktivToggle: Template ist verwendbar.

Template-Typen (Chain-Types)

TypBeschreibungRAG-KontextTools
Standard Klassisches RAG: Frage → Retrieval → LLM-Antwort mit Kontext. Das Standardverhalten für die meisten Anfragen. Ja Nein
Unchained Direkt-LLM ohne RAG-Kontext. Das LLM antwortet nur aus seinem Trainings-Wissen. Nützlich für allgemeine Fragen oder kreative Aufgaben. Nein Nein
Agent ReAct-Agent mit Tool-Loop. Das LLM kann Tools aufrufen (Suche, ERP-Abfragen, Berechnungen, ...) und iterativ eine Antwort erarbeiten. Via Tools Ja

Platzhalter

PlatzhalterChain-TypBeschreibung
{context} Standard (Pflicht) Wird durch die gefundenen Kontext-Chunks ersetzt.
{question} Standard (Pflicht) Wird durch die Benutzer-Frage ersetzt.
{tools_prompt} Agent (Pflicht) Wird durch die Liste der verfügbaren Tools ersetzt.
Tipp: Unchained-Templates haben keine Pflicht-Platzhalter — der gesamte Prompt-Text wird direkt als System-Prompt an das LLM gesendet. Ideal für spezialisierte Rollen (z.B. »Du bist ein IT-Helpdesk-Assistent«).

Templates erstellen

FeldTypPflichtBeschreibung
Interner Name Text Ja Eindeutiger Bezeichner (z.B. it_helpdesk). Kann nachträglich nicht geändert werden.
Anzeige-Label Text Nein Name im Chat-Dropdown (z.B. »IT-Helpdesk«).
Chain-Typ Dropdown Ja Standard / Unchained / Agent.
Beschreibung Text Nein Kurzbeschreibung für die Admin-UI.
Template-Inhalt Textarea Ja Der System-Prompt mit Platzhaltern.
Als Chat-Modus anzeigen Checkbox Nein Wenn aktiviert, erscheint das Template im Chat-Modus-Dropdown.

Erweiterte Felder (im Expand-Detail)

FeldTypBeschreibung
Antwort-Prompt (nur Agent) Textarea Optionaler finaler Prompt, der nach allen Tool-Ergebnissen an das LLM gesendet wird.
Badge-Farbe Text Hex-Farbe für das Badge im Chat-Dropdown (z.B. #ff6b35).
Sortierung Zahl Reihenfolge im Chat-Dropdown (0 = oben).
Tipp: System-Templates (is_system=1) können bearbeitet aber nicht gelöscht werden. Das schützt die Standard-Prompts vor versehentlichem Löschen. Eigene Templates können frei erstellt und gelöscht werden.

API-Endpunkte

Die vollständige API-Referenz wird dynamisch aus der Admin-Registry generiert: