/* Google Ads */
Logo Pflege KI

KI-gestützte Pflegegutachten: Wie RAG die Genauigkeit verdoppelt

25. November 2025

🏥 KI-gestützte Pflegegutachten: Wie RAG die Genauigkeit (fast) verdoppelt

Ein Benchmark-Vergleich von 4 KI-Modellen für die Pflegebegutachtung nach BRi
November 2025 | Lesezeit: ~8 Minuten

🎯 Worum geht es?

Die Pflegebegutachtung nach den Begutachtungsrichtlinien (BRi) ist komplex und erfordert fundiertes Fachwissen.
In diesem Artikel zeige ich, wie moderne KI-Modelle bei der Bewertung von Kriterien aus den Begutachtungsrichtlnien (BRi) am Beispiel von Modul 1 unterstützen können und warum die Kombination aus Retrieval-Augmented Generation (RAG) und spezialisiertem Prompt Engineering die Genauigkeit von 30% auf 68% steigern kann.

💡 Kernaussage: Mittelgroße Open-Source-Modelle (~17 Milliarden Parameter) sind der
„Sweet Spot“ für RAG-Systeme in der Pflegebegutachtung. Sie übertreffen sogar GPT-4o und sind dabei
kostenlos und lokal nutzbar.

🔬 Die Methodik: Was wurde getestet?

Der Benchmark

Ich habe 100 Multiple-Choice-Fragen zum Modul 1 (Mobilität) der Pflegebegutachtung erstellt.
Jede Frage beschreibt eine realistische Pflegesituation und fragt nach der korrekten Bewertung
nach BRi (selbständig, überwiegend selbständig, überwiegend unselbständig, unselbständig).

Die getesteten Modelle

Modell Größe Verfügbarkeit
Llama-4-Scout-17B 17 Mrd. Parameter Open-Source (Cloud + Lokal)
GPT-4o ~100+ Mrd. Parameter Closed-Source (OpenAI)
Teuken-7B 7 Mrd. Parameter Open-Source (Lokal)

🔧 Technischer Hintergrund: Was ist RAG?
RAG (Retrieval-Augmented Generation) bedeutet, dass das KI-Modell nicht nur aus seinem trainierten
Wissen antwortet, sondern zusätzlich relevante Informationen aus einer Wissensdatenbank abruft.
In unserem Fall: Die offiziellen Begutachtungsrichtlinien und Spezialfälle aus der Praxis.

Hybrid Search: Kombination aus semantischer Suche (Bedeutung) und Keyword-Suche (BM25)
für optimale Ergebnisse.

Drei Test-Konfigurationen

  1. Baseline: Modell ohne zusätzliche Hilfe
  2. RAG (Standard): Modell + Wissensdatenbank
  3. RAG + Strikt: Modell + Wissensdatenbank + spezialisierter Prompt mit Beispielen

📊 Die Ergebnisse: Llama-4-Scout gewinnt

Vergleich aller Modelle

🏆 Das Ranking (beste Konfiguration)

Platz Modell Genauigkeit Konfiguration
🥇 Llama-4-Scout (Cloud) 72% RAG + Strikt
🥈 Llama-4-Scout (Lokal) 68% RAG + Strikt
🥉 GPT-4o 66% RAG + Strikt
4 Teuken-7B 52% Baseline (ohne RAG)
🎉 Überraschung: Das Open-Source-Modell Llama-4-Scout schlägt GPT-4o um 6 Prozentpunkte!

📈 Die Detailanalyse: Warum funktioniert RAG so gut?

RAG-Verbesserung im Detail

Llama-4-Scout (lokal): Der größte Gewinner

  • Baseline: 30% Genauigkeit
  • + RAG: 44% (+14 Prozentpunkte)
  • + Strikter Prompt: 68% (+24 Prozentpunkte)
  • Gesamt: +38 Prozentpunkte = mehr als Verdopplung!

GPT-4o: Solide, aber weniger Verbesserung

  • Baseline: 51% (bereits gut)
  • + RAG: 62% (+11 Prozentpunkte)
  • + Strikter Prompt: 66% (+4 Prozentpunkte)
  • Gesamt: +15 Prozentpunkte

⚠️ Teuken-7B: Ein Sonderfall
Das kleinere Teuken-Modell (7 Milliarden Parameter) zeigt ein unerwartetes Verhalten:
RAG verschlechtert die Ergebnisse von 52% auf 48%. Auch der strikte Prompt bringt keine Verbesserung.

Mögliche Erklärungen:

  • Das Modell ist zu klein, um zusätzlichen Kontext sinnvoll zu verarbeiten
  • Konfigurationsfehler in meinem Setup (weitere Tests nötig)
  • Das Modell ist für diesen spezifischen Use Case ungeeignet

Fazit: Für produktive Pflegegutachten-Systeme ist Teuken-7B aktuell nicht empfehlenswert.

💡 Warum ist Llama-4-Scout so erfolgreich?

1. Die optimale Größe: Der „Sweet Spot“

Mit 17 Milliarden Parametern liegt Llama-4-Scout genau in der Mitte:

  • Zu klein (<10B): Kann zusätzlichen Kontext nicht nutzen (siehe Teuken)
  • Optimal (~17B): Perfekte Balance zwischen Kontext-Verarbeitung und Fokus
  • Zu groß (>50B): Bereits ohne RAG sehr gut, weniger relativer Gewinn

2. Prompt Engineering wirkt besonders stark

Der spezialisierte Prompt mit Chain-of-Thought-Beispielen (z.B. zum „Prinzip Hilfsmittel“)
bringt bei Llama-4-Scout +24 Prozentpunkte, bei GPT-4o nur +4 Prozentpunkte.

Interpretation: Mittelgroße Modelle profitieren stärker von expliziten Anweisungen,
während sehr große Modelle diese Prinzipien bereits „verstanden“ haben.

3. Lokal vs. Cloud: Ein fairer Trade-off

Lokal vs. Cloud Vergleich

Kriterium Cloud (Together.ai) Lokal (LM Studio)
Genauigkeit 72% 68% (-4%)
Geschwindigkeit 1.5s/Frage 6.2s/Frage
Kosten (100 Fragen) ~0.20€ Kostenlos
Datenschutz Daten verlassen Server 100% lokal
Reproduzierbarkeit Abhängig vom Anbieter Vollständig kontrollierbar

Empfehlung: Für Forschung und Entwicklung ist die lokale Variante ideal
(kostenlos, reproduzierbar, datenschutzkonform). Für produktive Systeme mit hohem Durchsatz
kann die Cloud-Variante sinnvoll sein.

🎓 Fazit und Ausblick

Die wichtigsten Erkenntnisse

  1. Llama-4-Scout-17B ist das beste Modell für Pflegegutachten-Benchmarks
    – es schlägt sogar GPT-4o und ist dabei Open-Source und lokal nutzbar.
  2. RAG funktioniert hervorragend – die Genauigkeit steigt um bis zu 38 Prozentpunkte.
  3. Modellgröße ist entscheidend – ~17 Milliarden Parameter sind der Sweet Spot.
    Kleinere Modelle (<10B) profitieren nicht von RAG.
  4. Prompt Engineering verstärkt den Effekt – spezialisierte Prompts mit Beispielen
    bringen bei mittelgroßen Modellen den größten Gewinn.
  5. Lokale Nutzung ist praktikabel – mit nur 4% Genauigkeitsverlust gegenüber
    der Cloud-Variante, dafür kostenlos und datenschutzkonform.

Nächste Schritte

  • Erweiterung auf alle 6 Module der Pflegebegutachtung
  • Test mit komplexeren Vignetten (nicht nur Multiple-Choice)
  • Automatische Pflegegrad-Ermittlung aus Fallbeschreibungen
  • Weitere Untersuchung des Teuken-Verhaltens (Konfiguration vs. Limitation)

📚 Technische Details

Hardware: NVIDIA RTX 3500 Ada (12 GB VRAM)
Software: LM Studio (lokal), Together.ai (Cloud), OpenAI API
RAG-System: ChromaDB + Hybrid Search (BM25 + OpenAI Embeddings)
Wissensbasis: Begutachtungsrichtlinien (BRi) + Spezialfälle Modul 1
Benchmark: 100 Multiple-Choice-Fragen, Modul 1 (Mobilität)
Code: Open-Source, verfügbar auf Anfrage
Top 3 LLM Vergleich im Benchmark für Modul 1
RAG Performance Vergleich Llama GPT und Teuken

0 Kommentare

Einen Kommentar abschicken

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Pflegebegutachtung im KI-Benchmark: Open-Source-Modelle im Vergleich

Pflegebegutachtung im KI-Benchmark: Open-Source-Modelle im Vergleich

In meinem virtuellen Pflege KI Institut habe ich erstmals ein Benchmarking entwickelt, das untersucht, wie gut verschiedene KI-Modelle die komplexen Aufgaben der Pflegebegutachtung bewältigen.
Im Vergleich zwischen Llama 3.3 70B Instruct (Meta) und gpt-oss-120b (OpenAI) zeigt sich:
Llama überzeugt mit höherer Genauigkeit, stabileren Antworten und dem besseren Preis-Leistungs-Verhältnis.

mehr lesen