Gestalten · C2 · 7 Stufen

Wissensdatenbanken pflegen

In C1 hast du den Agenten angelegt. Jetzt befüllst, optimierst und diagnostizierst du seine Wissensdatenbank — bis die Antworten sitzen.

Was du in diesem Tutorial tust

Wir befüllen den Container „Produkthandbücher" des Helpdesk-Assistenten, prüfen die Container-Strategie, stellen das Chunking richtig ein und tunen die Suche über die Knowledge-Base-Diagnose. Bau-Modus: echte Reiter und Felder als Konfigurations-Mockups, plus die Verarbeitungskette als Animation.

Voraussetzung: C1 (Agent und Start-Container angelegt). Worum es konzeptuell geht, erklärt B3 — hier geht es ums Pflegen und Tunen.

Quellenhinweis: Wo das Schritt-Tutorial 17 vom Referenzkapitel 4 abweicht, gilt das Referenzkapitel (+ „gegen Instanz prüfen").

Quellen und Stand

Geprüft gegen das AuxData-Administrator-Handbuch (Stand Juni 2026), Kapitel 4 (Wissensdatenbank), 3.5/3.7 (Chunking) und 12.6 (LightRAG-Datenschutz) sowie das Schritt-Tutorial 17.

Stufe 1 von 7

Container-Strategie

Wissen sinnvoll trennen.

1Container als Ordnungsprinzip

Ein Container ist eine logische Sammlung mit eigenem Bereich in der Vektor-Datenbank; er zählt Dokumente und Chunks separat. (AH 4.1)

Trenne nach Thema (HR, IT, Produkt), Zeit (Archiv 2024, Aktuell 2026) oder Projekt. Pro Agent sind beliebig viele Container möglich; Rechte steuerst du am Agenten, nicht über Dokument-Tags. (AH 4.1; AH 2.7; Tut 17 S4.1)

Produkthandbücher: unser Start-Container für den Helpdesk-Assistenten.
FAQ: kurze Frage-Antwort-Paare (anderes Chunking, siehe Stufe 4).
Release-Notes: zeitlich getrennt, regelmäßig erneuert.

2Strategie festlegen

Container-Strategie

Start-Container

Produkthandbücher

Optionaler Zusatz

FAQ oder Release-Notes nur anlegen, wenn Such-/Pflegegründe dafür sprechen.

Wichtig

Jeder Container erhält automatisch einen eigenen Bereich in der Vektor-Datenbank.

Echte Wissensdatenbank-Übersicht des Demo-Agenten: Container-Karten „Alle Dokumente — C2-S01 · Wissensdatenbank-Übersicht an der Demo-Instanz (Container + „+" zum Erstellen)

Vorsicht: „Wissens-DB leeren" löscht alle Dokumente der Wissensdatenbank, die Container-Definitionen bleiben aber bestehen. Das ist ein Admin-Werkzeug, kein normaler Pflege-Schritt. (AH 4.1)

✎ Bauaufgabe: Welche Container braucht der Helpdesk-Assistent neben „Produkthandbücher"?

✓ Das hast du jetzt erledigt

Ich kann Container sinnvoll schneiden.

Ich habe entschieden, ob zusätzliche Container nötig sind.

Stufe 2 von 7

Dokumente hochladen

Drei Wege ins Wissen.

1Datei, URL oder Text

Der Upload-Dialog hat drei Reiter. (AH 4.2; AH 4.5)

Datei hochladen: PDF, DOCX, ODT, TXT, HTML, XLSX, CSV, JSON, RTF, MP4/WAV/MP3, Bilder.
URL (Web-Crawler): Startadresse + Tiefe + max. Seitenzahl; jede Seite wird ein Dokument. Begrenzungen schützen vor ausufernden Crawls.
Text direkt: Titel + Inhalt für punktuelle Ergänzungen.

Datei hochladenURL (Web-Crawler)Text direkt

Datei hochladen

Datei

Produkthandbuch_v3.pdf hierher ziehen …

Container

Produkthandbücher

Bildinformationen auslesenVision-Modell, erhöht Kosten

aus

Manueller Kontextwird jedem Chunk mitgegeben

Offizielles Produkthandbuch der Muster GmbH, Stand 2026.

Echter Dokument-hinzufügen-Dialog: Tabs Datei hochladen, URL, Text; Dropzone für PDF/DOCX/TXT/CSV; Optionen für Bildauslesen und manuellen Kontext — C2-S02 · Dialog „Dokument hinzufügen" an der Demo-Instanz (Datei/URL/Text, Dropzone, manueller Kontext)

Audio & Video: Medien werden transkribiert; Dateien > 24 MB zerlegt die Plattform automatisch in 45-Minuten-Segmente, bei Videos wird die Tonspur per ffmpeg extrahiert. (AH 4.2)

Mehrere Dokumente auf einmal: In der Dokumentenliste wählst du Dokumente per Checkbox (Auswahl bleibt über Seitenwechsel erhalten) und kannst sie verschieben oder löschen (mit Sicherheitsabfrage). Ein Bilanzdialog zählt erfolgreiche und fehlgeschlagene Aktionen; fehlgeschlagene Dokumente bleiben rot markiert. (AH 4.3)

Divergenz: Das Schritt-Tutorial spricht von „Tags/Kategorien auf Dokument-Ebene" — die gibt es so nicht. Kategorien sitzen auf Service-, Workflow- und Marktplatz-Ebene (AH 4.5); auf Dokument-Ebene wirken Container + manueller Kontext + Metadaten (Titel/Link/Seite).

✎ Bauaufgabe: Welchen manuellen Kontext-Satz gibst du den Produkthandbüchern mit?

✓ Das hast du jetzt erledigt

Ich kenne die drei Upload-Wege.

Ein Dokument mit manuellem Kontext hochgeladen.

Stufe 3 von 7

Verarbeitung & Status

Was nach dem Upload passiert.

1Die Verarbeitungskette

Nach dem Hochladen läuft eine asynchrone Kette — Anreicherung und LightRAG nur, wenn aktiviert. (AH 4.2)

Upload

Chunking

Anreicherung*

Embedding

LightRAG*

suchbar

* optional · Speicherung in MySQL + pgvector · Muster GmbH

2Status in der Dokumentenliste

PROCESSING_CHUNKING: wird in Chunks zerlegt.
PROCESSING_CONTEXTENRICHMENT: Kontext-Anreicherung läuft.
PROCESSING_CHUNKPROCESSING: Embeddings werden berechnet.
PROCESSING_LIGHTRAG: Wissensgraph wird aufgebaut.
FINISHED_SUCCESSFUL: einsatzbereit — ab jetzt suchbar.
FINISHED_ERROR: Fehler — Meldung im Detail.

Quelle: AH 4.3.

3Pro-Dokument-Aktionen

In der Dokumentenliste kannst du Chunks einsehen, neu chunken, Analyseergebnisse öffnen oder Dokumente löschen. Beim Löschen verschwinden Dokument, Chunks und Vektoren; LightRAG-Einträge werden im Lebenszyklus mitgedacht. (AH 4.3, 4.10)

✎ Bauaufgabe: Ein Dokument hängt auf FINISHED_ERROR — wo schaust du nach der Ursache?

✓ Das hast du jetzt erledigt

Ich kann die Verarbeitungskette beschreiben.

Ich kann die Statuswerte lesen.

Stufe 4 von 7

Chunking richtig einstellen

Die richtige Größe je Dokumenttyp.

1Chunk-Größe nach Dokumenttyp

Die Chunk-Größe entscheidet über Präzision vs. Zusammenhang. AH nennt 1000 Zeichen als Startwert und 1000–2000 als typischen Bereich; kleinere oder größere Werte sind Praxisheuristiken, die du testen solltest. (AH 3.5/3.7; Tut 17 S2.1)

Klein (500–800): präzise Fakten, FAQ, kurze Q&A.
Mittel (1000–1500): ausgewogen — guter Standard.
Groß (2000+): zusammenhängende Texte, Erzählung.

Rolling Chunks (~10 % Überlappung) bleiben aktiv, damit kein Zusammenhang an der Schnittkante verloren geht. „Neu chunken" verarbeitet das Dokument erneut über dieselbe Dokument-ID und zieht die aktuelle Agent-Konfiguration. (AH 3.5/3.7, 4.3)

Divergenz: Das Schritt-Tutorial nennt die Überlappung „Overlap" — im Reiter heißt sie Rolling Chunks. (AH 3.5)

✎ Bauaufgabe: Welche Chunk-Größe wählst du für den FAQ-Container — und warum nicht 2500?

✓ Das hast du jetzt erledigt

Ich wähle die Chunk-Größe passend zum Dokumenttyp.

Ich weiß, was „Neu chunken" bewirkt.

Stufe 5 von 7

Such-Diagnose & Quality-Gate-Tuning

Sehen, was die Suche findet — und nachregeln.

1Knowledge-Base-Suche als Diagnose

Gib einen Suchbegriff ein und sieh, welche Treffer mit welchem Score (in %) zurückkommen. (AH 4.4)

Knowledge-Base-Suche

Suchbegriff

Gerät auf Werkseinstellungen zurücksetzen

Chunks anzeigen

an

Echte Knowledge-Base-Suche: Frage zu Homeoffice-Regelungen, gefundenes Dokument Muster-Handbuch.txt mit Ähnlichkeit 51,90 Prozent und Chunk-Treffer — C2-S03 · Knowledge-Base-Suche an der Demo-Instanz (Treffer mit Score in %)

Produkthandbuch_v3.pdf: Score 86 % · 4 Chunks — entspricht 0,86 und liegt oberhalb eines Gates von 0,60.
Schnellstart.pdf: Score 61 % · 2 Chunks.
Altes_Handbuch_2019.pdf: Score 37 % — unter dem Quality Gate, verworfen.

Knowledge-Base-Suchmaske (offizielle Abbildung aus dem Admin-Handbuch) — Offizielle Abbildung aus dem Admin-Handbuch (Kap. 4) — die Suchmaske der Wissensdatenbank mit Treffern und Score.

2Die Stellschrauben

Faustregel: Kommt eine bekannte Antwort nicht zurück, prüfe zuerst, ob das Dokument fertig verarbeitet ist und ob die Knowledge-Base-Suche überhaupt Treffer liefert. Danach Chunk-Limit erhöhen oder Quality Gate senken. Die Abfrageanalyse nutzt Gate-Werte von 0.0–1.0 und maximale Ergebnisanzahl für A/B-Tests. (AH 4.4, 4.6)

Divergenz: Das Schritt-Tutorial nennt eine „Suchgewichtung 70 % semantisch / 30 % Stichwort" und eine „kombinierte Suche" — das ist in Kapitel 4 nicht dokumentiert (dort: semantische Suche mit Score). Gegen die konkrete Instanz prüfen.

✎ Bauaufgabe: Ein wichtiger Absatz wird nicht gefunden — erhöhst du zuerst das Chunk-Limit oder senkst das Quality Gate? Begründe.

✓ Das hast du jetzt erledigt

Ich kann mit der Knowledge-Base-Suche diagnostizieren.

Ich weiß, wie ich Chunk-Limit und Quality Gate nachregle.

Stufe 6 von 7

LightRAG-Entitäten pflegen

Den Wissensgraph sauber halten.

1Was LightRAG erzeugt

Bei aktivem LightRAG extrahiert ein LLM pro Chunk Entitäten (Personen, Organisationen, Orte, Konzepte) und Relationen — ein Wissensgraph neben der Vektor-DB. (AH 4.7)

Die Entitäten-Ansicht zeigt je Eintrag Name, Beschreibung, Relevanz-Score und verknüpfte Relationen.

2Pflege für bessere Qualität

Aliase vergeben: „M. Mustermann" = „Max Mustermann" zusammenführen.
Falsch-Entitäten löschen: versehentlich extrahierte Treffer entfernen.

Datenschutz: Der Graph speichert Personen und Beziehungen explizit. Entitäten regelmäßig sichten, Falsch-Entitäten löschen und LightRAG für sensible Container deaktivieren (vertieft Track D4). (AH 4.7, 12.6)

✎ Bauaufgabe: Welche Entitäten würdest du in den Produkthandbüchern erwarten — und welche wären ein DSGVO-Warnsignal?

✓ Das hast du jetzt erledigt

Ich kann Entitäten pflegen (Alias/Löschen).

Ich kenne das Datenschutz-Risiko von LightRAG.

Stufe 7 von 7

Qualitätssicherung & Wartung

Dauerhaft gute Antworten.

1Testen

Lege Testfragen an und prüfe die Antworten gegen die Quellen; nutze Suche/Abfrageanalyse für Score-Diagnose und behalte Performance und Token-Kosten im Blick. (AH 4.6, 4.8; Tut 17 S5)

2Dokumentlebenszyklus

Quelldokument aktualisiert → Neu chunken bzw. erneuter Upload über dieselbe Dokument-ID.
Dokument obsolet → Löschen entfernt Dokument, Chunks, Vektoren und Graph-Einträge.
Veraltete oder doppelte Dokumente regelmäßig bereinigen.

Quelle: AH 4.10.

Wissensdatenbank gepflegt!

Container befüllt, Chunking eingestellt, Suche getunt, Entitäten gepflegt und ein Wartungsrhythmus gesetzt. Mach das Quiz und geh dann weiter zu C3 — AI-Services und Parameter definieren.

✎ Bauaufgabe: Wie hältst du die Produkthandbücher dauerhaft aktuell?

✓ Das hast du jetzt erledigt

Ich habe einen Test-/Wartungsrhythmus.

Ich kenne den Dokumentlebenszyklus.

Kurz-Quiz

Sitzt das Pflegen?

7 Szenariofragen aus den Stufen 1–7. Kein Zertifikat — zur Selbstkontrolle. Beliebig oft wiederholbar.

Frage 1 von 7

Lade Frage…

Weiter: C3 · AI-Services und Parameter definieren →