WikiGuide: KI

KI

Der KI-Tab konfiguriert alle KI-Komponenten: Embedding- und LLM-Backends, Ingestion-Parameter, Retrieval-Strategie, Wissensgraph und Prompt-Templates. Er ist in 5 Sub-Tabs gegliedert.

Sub-Tab: Modelle & Backend

Zentrale Verwaltung aller KI-Backends. Jedes Backend hat eine Kategorie, einen Provider, ein Modell und eine Prioritaet. KIara waehlt automatisch das aktive Backend mit der niedrigsten Prioritaet (1 = bevorzugt).

Kategorien & Provider

KategorieProviderBeschreibung
Embedding Ollama, OpenAI, Voyage Vektorisierung von Text-Chunks fuer die Suche. Bestimmt die Qdrant-Collection und Vektordimension.
LLM Ollama Lokales Sprachmodell fuer Antwortgenerierung (z.B. qwen3:8b). Wird fuer Standard- und Agent-Modus verwendet.
Cloud Anthropic, OpenAI Cloud-basierte LLMs (Claude, GPT). Hoehere Qualitaet, aber Kosten pro Token. Wird als Alternative oder Fallback zum lokalen LLM konfiguriert.
VLM Ollama Vision Language Model fuer Bildbeschreibungen bei der Indexierung. Wird nur bei aktiviertem VLM in der Datenquelle verwendet.
DDU Docling Deep Document Understanding — konvertiert PDF/Office-Dokumente ueber ein Deep-Learning-Modell zu Markdown. Laeuft als separater Service (Docling-Proxy).

Backend-Tabelle — Spalten

SpalteBeschreibung
NameFrei waehlbarer Anzeigename (z.B. »GPU-Server 1«).
KategorieFarbiges Badge: Embedding / LLM / Cloud / VLM / DDU.
ProviderTechnischer Provider: Ollama, Anthropic, OpenAI, Voyage, Docling.
ModellModellname (z.B. qwen3:8b, claude-sonnet-4-20250514).
URLOllama-URL oder Cloud-Base-URL.
PrioPrioritaet (1-100). Niedrig = bevorzugt.
StatusLetzter Verbindungstest: OK (gruen) / Fehler (rot) / Nicht getestet.
AktivToggle: Ein/Aus.
AktionenTest, Bearbeiten, Loeschen.

Backend erstellen / bearbeiten

Gemeinsame Felder (alle Kategorien)

FeldTypStandardBeschreibungEmpfehlung
Name Text (auto) Anzeigename fuer die Backend-Tabelle. Sprechend benennen: Ollama GPU-Server, Anthropic Claude.
Prioritaet Zahl 10 1 = hoechste Prioritaet, 100 = niedrigste. Primaeres Backend: 10. Fallback: 50. Nur bei Bedarf: 90.
Aktiv Toggle An Deaktivierte Backends werden bei der Auswahl uebersprungen. Backends nicht loeschen, sondern deaktivieren — so bleibt die Config erhalten.

Ollama-Backends (Embedding, LLM, VLM)

FeldTypBeschreibungEmpfehlung
Ollama URL Text + Test-Button URL des Ollama-Servers. Lokal: http://localhost:11434
Remote GPU: http://10.0.12.16:11434
Modell Dropdown / Text Nach erfolgreichem Test wird ein Dropdown mit verfuegbaren Modellen angezeigt. Alternativ: manuell eingeben. Embedding: nomic-embed-text
LLM: qwen3:8b
VLM: je nach Verfuegbarkeit

Cloud-Backends (Anthropic, OpenAI)

FeldTypBeschreibungEmpfehlung
Base URL Text Optionale alternative API-URL (fuer Proxies oder Azure-Endpoints). Leer = Standard-API. Normalerweise leer lassen.
API-Key Passwort API-Schluessel. Wird AES-verschluesselt gespeichert. Anthropic: Beginnt mit sk-ant-.
OpenAI: Beginnt mit sk-.
Modell Dropdown / Text Nach Test wird ein Dropdown mit verfuegbaren Modellen angezeigt. Anthropic: claude-sonnet-4-20250514
OpenAI: gpt-4o

Cloud-Embedding (OpenAI, Voyage)

FeldTypBeschreibungEmpfehlung
API-Key Passwort API-Schluessel des Embedding-Providers. Voyage: Beginnt mit pa-.
Modell Dropdown Statische Modell-Liste (OpenAI: text-embedding-3-small/large, Voyage: voyage-3/lite). Siehe VektorDB-Guide: Embedding-Modelle.

DDU (Docling)

FeldTypBeschreibungEmpfehlung
URL Text URL des Docling-Proxy-Services. Leer = lokale Installation. http://10.0.12.16:5001 (Docling-Proxy auf dem GPU-Server).

Verbindungstests

ProviderWas wird getestetErgebnis bei Erfolg
Ollama HTTP-Erreichbarkeit + Modell-Liste abfragen. »Erreichbar (N Modelle)« + Dropdown wird befuellt.
Anthropic / OpenAI (LLM) API-Key validieren + Modell-Liste abfragen. Modell-Dropdown wird befuellt.
OpenAI / Voyage (Embedding) Probe-Embedding generieren (validiert Key + Modell + Dimension). Dimension wird angezeigt und validiert.
Docling (DDU) Erreichbarkeit des Docling-Proxy pruefen. »Verfuegbar«.
Tipp: Nach dem Erstellen eines Backends immer den Test-Button in der Tabelle (↻) klicken. Der Status wird gespeichert (last_test_ok, last_test_at, last_test_error) und ist so auch spaeter sichtbar.

Sub-Tab: Ingestion

Globale Einstellungen fuer die Dokumenten-Indexierung. Diese Werte gelten als Systemstandard — einzelne Datenquellen koennen sie ueberschreiben (siehe Datenquellen-Guide).

Chunk-Parameter

FeldTypStandardBeschreibungEmpfehlung
Chunk-Groesse Zahl 1000 Maximale Zeichen pro Chunk (bei custom-Strategie). 800–1200 fuer die meisten Anwendungsfaelle. Zu kleine Chunks verlieren Kontext, zu grosse verwassern die Relevanz.
Chunk-Overlap Zahl 200 Ueberlappung zwischen aufeinanderfolgenden Chunks (Zeichen). 10–20% der Chunk-Groesse. Verhindert, dass relevante Saetze an Chunk-Grenzen verloren gehen.
Batch-Groesse Zahl 100 Chunks pro Batch beim Embedding-Upload. 50–200. Groessere Batches sind schneller, brauchen aber mehr RAM/VRAM. Bei Cloud-Providern API-Limits beachten (OpenAI: max 2048, Voyage: max 1000).

VLM-Prompt

FeldTypBeschreibung
VLM-Prompt Textarea Prompt fuer die KI-Bildbeschreibung. Bestimmt, wie Bilder bei der Indexierung beschrieben werden. Leer = Standard-Prompt.
Tipp — Standard-Prompt: Der Default-Prompt ist auf deutsche Sprache und technische Inhalte optimiert (Zeichnungen, Typenschilder, Fotos). Er kann angepasst werden, z.B. fuer medizinische Bilder oder spezifische Branchenanforderungen. Button »Auf Standard zuruecksetzen« stellt den Original-Prompt wieder her.

Ausgeschlossene Dateitypen

FeldTypBeschreibung
Blocklist Textarea Eine Dateiendung pro Zeile (mit Punkt). Dateien mit diesen Endungen werden bei aktiviertem »Alle Textdateien akzeptieren« trotzdem uebersprungen. Betrifft 70+ Endungen: Zertifikate, Archive, Bilder, Audio/Video, Executables, Fonts, Datenbanken, temp-Dateien.
Tipp: Die Blocklist greift nur wenn die Datenquellen-Option »Alle Textdateien akzeptieren« aktiv ist. Bei Standard-Dateityp-Erkennung (ohne diese Option) werden ohnehin nur bekannte Formate (.pdf, .docx, .txt, ...) verarbeitet.

Sub-Tab: Retrieval

Konfiguration der Suchstrategie: Wie werden relevante Chunks fuer eine Benutzer-Anfrage gefunden? KIara unterstuetzt Vektor-Suche, optionale Hybrid-Suche (BM25/Elasticsearch), Reranking und Query-Expansion.

Hybrid-Suche

FeldTypStandardBeschreibungEmpfehlung
Methode Dropdown Keine Keyword-Suche zusaetzlich zur Vektor-Suche.
Keine: Nur Vektor-Suche (Qdrant).
BM25 (In-Memory): Klassische Keyword-Suche, schnell, kein Extra-Service.
Elasticsearch: Verteilte Volltextsuche mit Fuzzy-Matching.
Elasticsearch empfohlen fuer Produktionsumgebungen — skaliert besser und bietet Fuzzy-Suche. BM25 ist gut fuer kleine Datenbestaende oder Tests.

Elasticsearch-Einstellungen (bei Auswahl »Elasticsearch«)

FeldTypStandardBeschreibungEmpfehlung
URL Text http://localhost:9200 Elasticsearch-Server-URL. Auf dem gleichen Host: Standard belassen.
Index-Name Text kiara Name des ES-Index. Standard belassen, ausser mehrere KIara-Instanzen auf einem ES-Server laufen.
Fuzziness Dropdown Keine (exakt) Unscharfe Suche:
Keine — Exakte Treffer.
AUTO — Automatisch (empfohlen, laengenabhaengig).
1 — Max. 1 Zeichen Abweichung.
2 — Max. 2 Zeichen Abweichung.
AUTO empfohlen — toleriert Tippfehler ohne die Praezision zu stark zu senken.

Elasticsearch Index-Verwaltung

ButtonBeschreibung
Index aufbauenLoescht den bestehenden Index und baut ihn aus allen Qdrant-Chunks neu auf.
Integritaet pruefenVergleicht eine 500er-Stichprobe zwischen ES und Qdrant.
Index loeschenEntfernt den ES-Index vollstaendig.

RRF-K (Reciprocal Rank Fusion)

FeldTypStandardBeschreibungEmpfehlung
RRF-K Zahl 60 Glaettungsparameter fuer die Rang-Fusion von Vektor-Suche und Keyword-Suche. Hoehere Werte gewichten die Rangfolge staerker, niedrigere die Score-Differenzen. 60 ist der Standardwert aus der Literatur. Anpassung nur bei spezifischen Retrieval-Problemen.

Reranking

Cross-Encoder Reranking sortiert die initialen Suchergebnisse nach semantischer Relevanz um. Hoeherer Qualitaetgewinn, aber zusaetzliche Latenz.

FeldTypStandardBeschreibungEmpfehlung
Aktivieren Checkbox Aus Cross-Encoder Reranking ein-/ausschalten. Empfohlen, wenn Antwortqualitaet wichtiger als Latenz ist.
Rerank-Modell Text cross-encoder/ms-marco-MiniLM-L-6-v2 HuggingFace-Modellname des Cross-Encoders. Das Standard-Modell bietet ein gutes Verhaeltnis aus Qualitaet und Geschwindigkeit.
Rerank Top-K Zahl 5 Anzahl der Top-Chunks nach dem Reranking, die an das LLM weitergegeben werden. 5–10. Mehr Chunks = mehr Kontext, aber auch mehr Rauschen.
Fetch-Multiplikator Zahl 3 Faktor fuer die initiale Suche: Top-K × Multiplikator Chunks werden aus Qdrant geholt, dann reranked auf Top-K. 3. Hoehere Werte verbessern die Recall-Rate, erhoehen aber die Reranking-Zeit.

Query-Expansion

FeldTypStandardBeschreibungEmpfehlung
Aktivieren Checkbox Aus Das LLM generiert alternative Formulierungen der Benutzer-Anfrage. Diese werden parallel gesucht, die Ergebnisse vereinigt. Hilfreich bei kurzen oder mehrdeutigen Anfragen. Erhoeht die Latenz um einen LLM-Call, verbessert aber die Abdeckung.

Kontext-Limits & weitere Optionen

FeldTypStandardBereichBeschreibung
Max. Kontext-Chunks Zahl 80 5 – 500 Obergrenze der Chunks im LLM-Kontext. Schuetzt vor Kontext-Ueberlauf bei Modellen mit kleinem Context-Window.
Agent-Deduplizierung Checkbox An Filtert doppelte Chunks im Agent-Tool-Loop. Verhindert, dass bei mehreren Suchanfragen dieselben Chunks mehrfach im Kontext landen.
Worker-Prozesse Zahl 4 1 – 16 Anzahl der Uvicorn-Worker fuer die Chat-UI. Aenderungen erfordern einen Service-Restart.
Tipp — Retrieval-Strategie zusammenstellen:
  • Minimal (schnell): Nur Vektor-Suche, kein Reranking → niedrigste Latenz
  • Standard: Vektor + Elasticsearch (Fuzziness: AUTO) + Reranking → gutes Gleichgewicht
  • Maximal (qualitaet): Vektor + ES + Reranking + Query-Expansion → beste Ergebnisse, hoechste Latenz

Sub-Tab: Wissensgraph

GraphRAG ergaenzt die Vektor-Suche um einen Wissensgraph mit Entitaeten (Kunden, Artikel, Auftraege, ...) und deren Beziehungen. Entitaeten werden bei der Indexierung durch ein LLM extrahiert und in PostgreSQL gespeichert.

Aktivierung

FeldTypStandardBeschreibung
Wissensgraph aktivieren Checkbox Aus Aktiviert die Graph-Traversal-Suche bei Benutzer-Anfragen.
Entity-Extraction bei Indexierung Checkbox An Extrahiert bei jeder Indexierung Entitaeten und Relationen. Erhoeht die Indexierungszeit um ca. 1–2s pro Chunk (LLM-Call).

Einstellungen

FeldTypStandardBereichBeschreibung
Max. Traversierungstiefe Zahl 2 1 – 4 Maximale Pfad-Tiefe bei der Graph-Suche (BFS).
Max. Chunks pro Graph-Query Zahl 20 5 – 50 Obergrenze der Chunks, die aus dem Graph-Traversal zurueckkommen.

KPI-Dashboard

Das Dashboard aktualisiert sich automatisch alle 15 Sekunden und zeigt:

  • Knoten gesamt / Kanten gesamt
  • Knoten nach Typ: Kunden, Lieferanten, Artikel, Auftraege, Fertigungsauftraege, Mitarbeiter, Dokumente, Themen, Chunks
  • Kanten nach Beziehung: Dynamisch aus Graph-Daten
  • ERP-Import / Extraction: Zaehler der jeweiligen Quelle

Aktionen

ButtonBeschreibungBestaetigung
ERP-Stammdaten importieren Importiert Kunden, Artikel, Auftraege etc. aus der ERP-Schnittstelle in den Graph. Ja
Graph leeren Loescht alle Knoten und Kanten. Kann nicht rueckgaengig gemacht werden. Ja
Achtung: Der Wissensgraph erhoeht die Indexierungszeit erheblich (LLM-Call pro Chunk). Bei 10.000 Chunks und 2s/Extraction sind das ~5,5 Stunden zusaetzliche Indexierungszeit. Fuer die meisten Anwendungsfaelle reicht die Vektor-Suche allein — der Graph lohnt sich vor allem bei stark verknuepften ERP-Daten (Kunden → Auftraege → Artikel).

Sub-Tab: Chat (Prompt-Templates)

Prompt-Templates steuern, wie das LLM Anfragen beantwortet. Jedes Template definiert einen System-Prompt und einen Chain-Typ (Standard, Unchained, Agent). Benutzer koennen im Chat-Dropdown zwischen den aktiven Templates waehlen.

Template-Tabelle

SpalteBeschreibung
Name / LabelInterner Name + Anzeige-Label. System-Templates sind mit Badge markiert.
TypChain-Typ als Badge: Standard (blau), Unchained (orange), Agent (lila).
ChatToggle: Im Chat-Dropdown fuer Benutzer sichtbar.
AktivToggle: Template ist verwendbar.

Template-Typen (Chain-Types)

TypBeschreibungRAG-KontextTools
Standard Klassisches RAG: Frage → Retrieval → LLM-Antwort mit Kontext. Das Standardverhalten fuer die meisten Anfragen. Ja Nein
Unchained Direkt-LLM ohne RAG-Kontext. Das LLM antwortet nur aus seinem Trainings-Wissen. Nuetzlich fuer allgemeine Fragen oder kreative Aufgaben. Nein Nein
Agent ReAct-Agent mit Tool-Loop. Das LLM kann Tools aufrufen (Suche, ERP-Abfragen, Berechnungen, ...) und iterativ eine Antwort erarbeiten. Via Tools Ja

Platzhalter

PlatzhalterChain-TypBeschreibung
{context} Standard (Pflicht) Wird durch die gefundenen Kontext-Chunks ersetzt.
{question} Standard (Pflicht) Wird durch die Benutzer-Frage ersetzt.
{tools_prompt} Agent (Pflicht) Wird durch die Liste der verfuegbaren Tools ersetzt.
Tipp: Unchained-Templates haben keine Pflicht-Platzhalter — der gesamte Prompt-Text wird direkt als System-Prompt an das LLM gesendet. Ideal fuer spezialisierte Rollen (z.B. »Du bist ein IT-Helpdesk-Assistent«).

Templates erstellen

FeldTypPflichtBeschreibung
Interner Name Text Ja Eindeutiger Bezeichner (z.B. it_helpdesk). Kann nachtraeglich nicht geaendert werden.
Anzeige-Label Text Nein Name im Chat-Dropdown (z.B. »IT-Helpdesk«).
Chain-Typ Dropdown Ja Standard / Unchained / Agent.
Beschreibung Text Nein Kurzbeschreibung fuer die Admin-UI.
Template-Inhalt Textarea Ja Der System-Prompt mit Platzhaltern.
Als Chat-Modus anzeigen Checkbox Nein Wenn aktiviert, erscheint das Template im Chat-Modus-Dropdown.

Erweiterte Felder (im Expand-Detail)

FeldTypBeschreibung
Antwort-Prompt (nur Agent) Textarea Optionaler finaler Prompt, der nach allen Tool-Ergebnissen an das LLM gesendet wird.
Badge-Farbe Text Hex-Farbe fuer das Badge im Chat-Dropdown (z.B. #ff6b35).
Sortierung Zahl Reihenfolge im Chat-Dropdown (0 = oben).
Tipp: System-Templates (is_system=1) koennen bearbeitet aber nicht geloescht werden. Das schuetzt die Standard-Prompts vor versehentlichem Loeschen. Eigene Templates koennen frei erstellt und geloescht werden.

API-Endpunkte

Die vollstaendige API-Referenz wird dynamisch aus der Admin-Registry generiert: