RAG-Optimierung in der Pflegebegutachtung: Warum künstliche Intelligenz Fachwissen braucht
Wie manuelle Chunk-Optimierung die KI-Genauigkeit bei der Pflegebegutachtung von 68% auf 76% steigerte
| Lesezeit: ~6 Minuten
Die Kernaussage
Auch die beste künstliche Intelligenz ersetzt nicht den Experten – sie braucht ihn. In diesem Experiment zeige ich, wie eine manuelle Optimierung der Wissensbasis durch einen Pflegegutachter die Genauigkeit eines KI-Systems für die Pflegebegutachtung um 8 Prozentpunkte verbesserte. Das Besondere: Der iterative Prozess ermöglicht kontinuierliche Verbesserung – Fehler werden systematisch erkannt und behoben.
Das Experiment: Künstliche Intelligenz trifft Pflegebegutachtung
Ausgangslage
In meinem vorherigen Benchmark hatte das Modell Llama-4-Scout-17B mit Hybrid-RAG und optimiertem Prompt eine Genauigkeit von 68% bei 100 Multiple-Choice-Fragen zur Pflegebegutachtung (Modul 1: Mobilität) erreicht. Die Chunks für das RAG habe ich bei diesem Run noch synthetisch von Claude-Sonnet 4.5. erstellen lassen.
Die Frage war: Kann ich durch manuelle Optimierung der RAG-Wissensbasis noch mehr herausholen?
Was wurde optimiert?
Ich habe erstmal nur die Chunk-Dateien (allgemeine_grundlagen.jsonl) manuell überarbeitet (die anderen Chunk-Dateien zu den einzelnen Modulen, speziell Modul 1, blieben noch unangetastet):
- Redundanten Text entfernt – Wiederholungen und unnötige Füllwörter gestrichen
- Metadaten optimiert – Tags präzisiert und ergänzt
- Fachbegriffe geschärft – Klarere Definitionen für Grenzfälle
Diese Arbeit erfordert Fachwissen – nur ein Pflegegutachter weiß, welche Formulierungen in der Praxis relevant sind und welche Nuancen die BRi-Richtlinien enthalten.
Wie funktioniert Hybrid-RAG?
Bevor die künstliche Intelligenz eine Frage zur Pflegebegutachtung beantwortet, durchsucht das RAG-System die Wissensbasis nach relevanten Informationen. Dabei nutzen ich drei Suchstrategien, die sich gegenseitig ergänzen:
| Strategie | Wie es funktioniert | Stärke |
|---|---|---|
| Metadata-Suche | Filtert nach Tags wie modul, kriterium_id |
Präzise Eingrenzung |
| Keyword-Suche (BM25) | Sucht nach exakten Wörtern wie „Rollator“ | Findet Fachbegriffe |
| Semantische Suche | Versteht die Bedeutung (Vektordatenbank) | Findet verwandte Inhalte |
Beispiel: Bei der Frage „Kann Herr Müller mit seinem Rollator die Treppe bewältigen?“ findet:
- Die Keyword-Suche Chunks mit „Rollator“ und „Treppe“
- Die Semantische Suche auch Chunks über „Fortbewegung“ und „Hilfsmittel“
- Die Metadata-Filter grenzen auf Modul 1 (Mobilität) ein
Das Ergebnis
| Konfiguration | Genauigkeit | Veränderung |
|---|---|---|
| Original-Chunks | 68% | Baseline |
| Optimierte Chunks | 76% | +8% |
Die Details: Was hat sich verändert?
✅ Verbesserte Items: 12 (falsch → richtig)
Die größten Gewinne bei der Pflegebegutachtung mit künstlicher Intelligenz:
- Hilfsmittel-Bewertung: 40% → 80% (+40 Prozentpunkte!)
- Regelmäßigkeit der Hilfe: 40% → 75% (+35 Prozentpunkte)
- Arthrose-Fälle: 44% → 78% (+33 Prozentpunkte)
- Bettgalgen-Nutzung: 50% → 100% (+50 Prozentpunkte)
❌ Verschlechterte Items: 4 (richtig → falsch)
Ja, einige Items wurden schlechter – das ist normal bei Optimierungen:
- 1x Gleitmatte-Szenario
- 1x ALS-Fall
- 1x Karzinom mit Kachexie
- 1x leichte Herzinsuffizienz
Netto-Gewinn: +8 Items (12 verbessert – 4 verschlechtert)
⚠️ Weiterhin problematisch: 20 Items
Diese Fälle bleiben für die künstliche Intelligenz bei der Pflegebegutachtung schwierig:
- Verbale Anleitung – Das Modell interpretiert „Anleitung“ als Hilfe, obwohl es nach BRi als „selbständig“ gilt, sehr schwierig, weil Modul 1 einzig und alleine körperliche Einschränkungen berücksichtigt.
- Pflegerollstuhl vs. normaler Rollstuhl – Die Unterscheidung ist noch nicht präzise genug
- Sitzposition halten – Komplexe Grenzfälle bei Rückenlehnen-Nutzung
Die wichtigste Erkenntnis: Der iterative Prozess
Warum künstliche Intelligenz den Experten nicht ersetzt
Eine künstliche Intelligenz kann nur so gut sein wie ihre Wissensbasis. Selbst das beste Sprachmodell (GPT-4o, Llama-4-Scout, etc.) kann domänenspezifisches Fachwissen nicht aus dem Nichts generieren.
Der Pflegegutachter bringt ein:
- Praxiswissen über typische Fallkonstellationen
- Interpretation der BRi in Grenzfällen
- Erfahrung mit häufigen Fehleinschätzungen
Der Optimierungskreislauf
- Benchmark durchführen – KI-System mit Testfragen prüfen
- Fehler analysieren – Welche Items sind falsch?
- Chunks optimieren – Fachwissen einbringen
- Erneut testen – Neuer Benchmark-Run
- Verbesserung messen – Fortschritt dokumentieren
- Wiederholen – Iterativ weiter verbessern
Mein Repository als Werkzeug
Das Benchmark-Repository ermöglicht genau diesen Prozess für die Pflegebegutachtung mit künstlicher Intelligenz:
- Fehler identifizieren – Welche Items werden falsch beantwortet?
- Ursachen verstehen – Welche Chunks wurden abgerufen?
- Gezielt verbessern – Die relevanten Chunks anpassen
- Fortschritt messen – Neuer Benchmark-Run zeigt die Verbesserung
So entsteht ein kontinuierlicher Verbesserungsprozess, der das KI-System mit jedem Durchlauf besser macht.
Praktische Implikationen
Für Entwickler von KI-Systemen
- RAG ist kein „Fire and Forget“ – Die Wissensbasis muss gepflegt werden
- Domänenexperten einbinden – Nur sie können die Chunks sinnvoll optimieren
- Benchmarks sind essentiell – Ohne Messung keine Verbesserung
Für Pflegegutachter und Fachexperten
- Ihre Expertise ist wertvoll – KI kann Sie unterstützen, aber nicht ersetzen
- Iterative Zusammenarbeit – Durch Feedback verbessern Sie das System
- Qualitätskontrolle bleibt wichtig – KI-Vorschläge müssen geprüft werden
Für Entscheider im Gesundheitswesen
- Künstliche Intelligenz ist ein Werkzeug, kein Ersatz – Der Mensch bleibt in der Verantwortung
- Investition in Fachwissen lohnt sich – Gute Chunks = bessere Ergebnisse
- Kontinuierliche Verbesserung ist möglich – Mit dem richtigen Prozess
Fazit: Künstliche Intelligenz und Pflegebegutachtung – eine Partnerschaft
76% Genauigkeit – das ist ein neuer Bestwert für mein lokales System. Aber wichtiger als die Zahl ist die Erkenntnis:
Künstliche Intelligenz und Fachwissen sind keine Gegensätze, sondern Partner.
Der Pflegegutachter optimiert die Wissensbasis, die künstliche Intelligenz wendet sie an. Durch den iterativen Prozess wird das System mit jedem Durchlauf besser. Das Repository dokumentiert jeden Schritt und macht den Fortschritt messbar.
Die Zukunft der Pflegebegutachtung liegt nicht in der Ersetzung des Menschen durch künstliche Intelligenz, sondern in der intelligenten Zusammenarbeit beider.
Technische Details
| Modell | Llama-4-Scout-17B-16E-Instruct |
| Ausführung | Lokal (LM Studio) |
| RAG-System | Hybrid Search (BM25 + Embeddings) |
| Benchmark | 100 MC-Fragen, Modul 1 (Mobilität) |
| Verbesserung | +8 Prozentpunkte (68% → 76%) |
Anhang: So sieht ein Chunk aus
Ein „Chunk“ ist ein Wissens-Baustein in der RAG-Datenbank für die Pflegebegutachtung. Hier ein Beispiel:
{
"id": "allgemein_grundlagen_003",
"text": "Die Selbständigkeit einer Person bei der
Ausführung bestimmter Handlungen wird unter
der Annahme bewertet, dass sie diese ausführen
möchte. [...] Für die Zwecke der Beurteilung
ist eine Person selbständig, die eine Handlung
alleine, ohne Unterstützung durch andere
Personen oder unter Nutzung von Hilfsmitteln,
durchführen kann.",
"metadata": {
"modul": "allgemein",
"modul_name": "Allgemeine Grundlagen",
"tags": [
"gehfunktion",
"hilfsmittel",
"personelle_hilfe",
"selbständigkeit"
]
}
}
Was macht einen guten Chunk aus?
- Klarer Text – Prägnant, ohne Redundanzen, fachlich korrekt
- Passende Tags – Ermöglichen gezielte Suche (z.B.
hilfsmittel,treppe) - Strukturierte Metadata – Modul, Kriterium, Spezialfall-Markierung
- Optimale Länge – Nicht zu kurz, nicht zu lang
Durch die manuelle Optimierung dieser Chunks konnte ich die Genauigkeit der künstlichen Intelligenz bei der Pflegebegutachtung von 68% auf 76% steigern.




0 Kommentare