/* Google Ads */
Logo Pflege KI

RAG-Optimierung in der Pflegebegutachtung: Warum künstliche Intelligenz Fachwissen braucht

30. November 2025

RAG-Optimierung in der Pflegebegutachtung: Warum künstliche Intelligenz Fachwissen braucht

Wie manuelle Chunk-Optimierung die KI-Genauigkeit bei der Pflegebegutachtung von 68% auf 76% steigerte

| Lesezeit: ~6 Minuten


Die Kernaussage

Auch die beste künstliche Intelligenz ersetzt nicht den Experten – sie braucht ihn. In diesem Experiment zeige ich, wie eine manuelle Optimierung der Wissensbasis durch einen Pflegegutachter die Genauigkeit eines KI-Systems für die Pflegebegutachtung um 8 Prozentpunkte verbesserte. Das Besondere: Der iterative Prozess ermöglicht kontinuierliche Verbesserung – Fehler werden systematisch erkannt und behoben.


Das Experiment: Künstliche Intelligenz trifft Pflegebegutachtung

Ausgangslage

In meinem vorherigen Benchmark hatte das Modell Llama-4-Scout-17B mit Hybrid-RAG und optimiertem Prompt eine Genauigkeit von 68% bei 100 Multiple-Choice-Fragen zur Pflegebegutachtung (Modul 1: Mobilität) erreicht. Die Chunks für das RAG habe ich bei diesem Run noch synthetisch von Claude-Sonnet 4.5. erstellen lassen. 

Die Frage war: Kann ich durch manuelle Optimierung der RAG-Wissensbasis noch mehr herausholen?

Was wurde optimiert?

Ich habe erstmal nur die Chunk-Dateien (allgemeine_grundlagen.jsonl) manuell überarbeitet (die anderen Chunk-Dateien zu den einzelnen Modulen, speziell Modul 1, blieben noch unangetastet):

  1. Redundanten Text entfernt – Wiederholungen und unnötige Füllwörter gestrichen
  2. Metadaten optimiert – Tags präzisiert und ergänzt
  3. Fachbegriffe geschärft – Klarere Definitionen für Grenzfälle

Diese Arbeit erfordert Fachwissen – nur ein Pflegegutachter weiß, welche Formulierungen in der Praxis relevant sind und welche Nuancen die BRi-Richtlinien enthalten.

Wie funktioniert Hybrid-RAG?

Bevor die künstliche Intelligenz eine Frage zur Pflegebegutachtung beantwortet, durchsucht das RAG-System die Wissensbasis nach relevanten Informationen. Dabei nutzen ich drei Suchstrategien, die sich gegenseitig ergänzen:

Strategie Wie es funktioniert Stärke
Metadata-Suche Filtert nach Tags wie modul, kriterium_id Präzise Eingrenzung
Keyword-Suche (BM25) Sucht nach exakten Wörtern wie „Rollator“ Findet Fachbegriffe
Semantische Suche Versteht die Bedeutung (Vektordatenbank) Findet verwandte Inhalte

Beispiel: Bei der Frage „Kann Herr Müller mit seinem Rollator die Treppe bewältigen?“ findet:

  • Die Keyword-Suche Chunks mit „Rollator“ und „Treppe“
  • Die Semantische Suche auch Chunks über „Fortbewegung“ und „Hilfsmittel“
  • Die Metadata-Filter grenzen auf Modul 1 (Mobilität) ein

Das Ergebnis

Konfiguration Genauigkeit Veränderung
Original-Chunks 68% Baseline
Optimierte Chunks 76% +8%

Die Details: Was hat sich verändert?

✅ Verbesserte Items: 12 (falsch → richtig)

Die größten Gewinne bei der Pflegebegutachtung mit künstlicher Intelligenz:

  • Hilfsmittel-Bewertung: 40% → 80% (+40 Prozentpunkte!)
  • Regelmäßigkeit der Hilfe: 40% → 75% (+35 Prozentpunkte)
  • Arthrose-Fälle: 44% → 78% (+33 Prozentpunkte)
  • Bettgalgen-Nutzung: 50% → 100% (+50 Prozentpunkte)

❌ Verschlechterte Items: 4 (richtig → falsch)

Ja, einige Items wurden schlechter – das ist normal bei Optimierungen:

  • 1x Gleitmatte-Szenario
  • 1x ALS-Fall
  • 1x Karzinom mit Kachexie
  • 1x leichte Herzinsuffizienz

Netto-Gewinn: +8 Items (12 verbessert – 4 verschlechtert)

⚠️ Weiterhin problematisch: 20 Items

Diese Fälle bleiben für die künstliche Intelligenz bei der Pflegebegutachtung schwierig:

  • Verbale Anleitung – Das Modell interpretiert „Anleitung“ als Hilfe, obwohl es nach BRi als „selbständig“ gilt, sehr schwierig, weil Modul 1 einzig und alleine körperliche Einschränkungen berücksichtigt.
  • Pflegerollstuhl vs. normaler Rollstuhl – Die Unterscheidung ist noch nicht präzise genug
  • Sitzposition halten – Komplexe Grenzfälle bei Rückenlehnen-Nutzung

Die wichtigste Erkenntnis: Der iterative Prozess

Warum künstliche Intelligenz den Experten nicht ersetzt

Eine künstliche Intelligenz kann nur so gut sein wie ihre Wissensbasis. Selbst das beste Sprachmodell (GPT-4o, Llama-4-Scout, etc.) kann domänenspezifisches Fachwissen nicht aus dem Nichts generieren.

Der Pflegegutachter bringt ein:

  • Praxiswissen über typische Fallkonstellationen
  • Interpretation der BRi in Grenzfällen
  • Erfahrung mit häufigen Fehleinschätzungen

Der Optimierungskreislauf

  1. Benchmark durchführen – KI-System mit Testfragen prüfen
  2. Fehler analysieren – Welche Items sind falsch?
  3. Chunks optimieren – Fachwissen einbringen
  4. Erneut testen – Neuer Benchmark-Run
  5. Verbesserung messen – Fortschritt dokumentieren
  6. Wiederholen – Iterativ weiter verbessern

Mein Repository als Werkzeug

Das Benchmark-Repository ermöglicht genau diesen Prozess für die Pflegebegutachtung mit künstlicher Intelligenz:

  1. Fehler identifizieren – Welche Items werden falsch beantwortet?
  2. Ursachen verstehen – Welche Chunks wurden abgerufen?
  3. Gezielt verbessern – Die relevanten Chunks anpassen
  4. Fortschritt messen – Neuer Benchmark-Run zeigt die Verbesserung

So entsteht ein kontinuierlicher Verbesserungsprozess, der das KI-System mit jedem Durchlauf besser macht.


Praktische Implikationen

Für Entwickler von KI-Systemen

  • RAG ist kein „Fire and Forget“ – Die Wissensbasis muss gepflegt werden
  • Domänenexperten einbinden – Nur sie können die Chunks sinnvoll optimieren
  • Benchmarks sind essentiell – Ohne Messung keine Verbesserung

Für Pflegegutachter und Fachexperten

  • Ihre Expertise ist wertvoll – KI kann Sie unterstützen, aber nicht ersetzen
  • Iterative Zusammenarbeit – Durch Feedback verbessern Sie das System
  • Qualitätskontrolle bleibt wichtig – KI-Vorschläge müssen geprüft werden

Für Entscheider im Gesundheitswesen

  • Künstliche Intelligenz ist ein Werkzeug, kein Ersatz – Der Mensch bleibt in der Verantwortung
  • Investition in Fachwissen lohnt sich – Gute Chunks = bessere Ergebnisse
  • Kontinuierliche Verbesserung ist möglich – Mit dem richtigen Prozess

Fazit: Künstliche Intelligenz und Pflegebegutachtung – eine Partnerschaft

76% Genauigkeit – das ist ein neuer Bestwert für mein lokales System. Aber wichtiger als die Zahl ist die Erkenntnis:

Künstliche Intelligenz und Fachwissen sind keine Gegensätze, sondern Partner.

Der Pflegegutachter optimiert die Wissensbasis, die künstliche Intelligenz wendet sie an. Durch den iterativen Prozess wird das System mit jedem Durchlauf besser. Das Repository dokumentiert jeden Schritt und macht den Fortschritt messbar.

Die Zukunft der Pflegebegutachtung liegt nicht in der Ersetzung des Menschen durch künstliche Intelligenz, sondern in der intelligenten Zusammenarbeit beider.


Technische Details

Modell Llama-4-Scout-17B-16E-Instruct
Ausführung Lokal (LM Studio)
RAG-System Hybrid Search (BM25 + Embeddings)
Benchmark 100 MC-Fragen, Modul 1 (Mobilität)
Verbesserung +8 Prozentpunkte (68% → 76%)

Anhang: So sieht ein Chunk aus

Ein „Chunk“ ist ein Wissens-Baustein in der RAG-Datenbank für die Pflegebegutachtung. Hier ein Beispiel:

{
  "id": "allgemein_grundlagen_003",
  
  "text": "Die Selbständigkeit einer Person bei der 
          Ausführung bestimmter Handlungen wird unter 
          der Annahme bewertet, dass sie diese ausführen 
          möchte. [...] Für die Zwecke der Beurteilung 
          ist eine Person selbständig, die eine Handlung 
          alleine, ohne Unterstützung durch andere 
          Personen oder unter Nutzung von Hilfsmitteln, 
          durchführen kann.",
  
  "metadata": {
    "modul": "allgemein",
    "modul_name": "Allgemeine Grundlagen",
    "tags": [
      "gehfunktion", 
      "hilfsmittel", 
      "personelle_hilfe", 
      "selbständigkeit"
    ]
  }
}

Was macht einen guten Chunk aus?

  1. Klarer Text – Prägnant, ohne Redundanzen, fachlich korrekt
  2. Passende Tags – Ermöglichen gezielte Suche (z.B. hilfsmittel, treppe)
  3. Strukturierte Metadata – Modul, Kriterium, Spezialfall-Markierung
  4. Optimale Länge – Nicht zu kurz, nicht zu lang

Durch die manuelle Optimierung dieser Chunks konnte ich die Genauigkeit der künstlichen Intelligenz bei der Pflegebegutachtung von 68% auf 76% steigern.


Dieser Artikel ist Teil meiner Forschung zur Pflegebegutachtung mit künstlicher Intelligenz. Das Benchmark-Repository ermöglicht die systematische Evaluation und Optimierung von RAG-Systemen im Pflegekontext.

0 Kommentare

Einen Kommentar abschicken

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Pflegebegutachtung im KI-Benchmark: Open-Source-Modelle im Vergleich

Pflegebegutachtung im KI-Benchmark: Open-Source-Modelle im Vergleich

In meinem virtuellen Pflege KI Institut habe ich erstmals ein Benchmarking entwickelt, das untersucht, wie gut verschiedene KI-Modelle die komplexen Aufgaben der Pflegebegutachtung bewältigen.
Im Vergleich zwischen Llama 3.3 70B Instruct (Meta) und gpt-oss-120b (OpenAI) zeigt sich:
Llama überzeugt mit höherer Genauigkeit, stabileren Antworten und dem besseren Preis-Leistungs-Verhältnis.

mehr lesen