Ich bin kein Universitätsprofessor. Ich habe kein Forschungsbudget, kein Team, keine institutionelle Anbindung. Ich war mal Pflegewissenschaftler und mich lässt abr eine Frage nicht los: Was passiert eigentlich, wenn Pflegeprofis KI-Systeme um fachlichen Rat bitten? Bekommen sie fundierte Antworten oder das, was die KI für erwünscht hält?
Statt nur darüber nachzudenken, habe ich es untersucht. Dieser Artikel beschreibt nicht das Ergebnis der Studie, sondern den Weg dahin: wie ich mit KI-Agenten, einem Laptop und einer Idee eine wissenschaftliche Arbeit von der ersten Hypothese bis zur zitierfähigen DOI-Veröffentlichung gebracht habe in wenigen Tagen, allein, über das Terminal in VS Code.
KI-Agenten als Werkzeuge im Forschungsprozess eines unabhängigen Pflegewissenschaftlers.
Warum ich mich mit KI in der Pflegeforschung beschäftige
Bevor ich den Prozess beschreibe, möchte ich erklären, warum ich das getan habe. Denn die Sycophancy-Studie ist nur ein Einstieg in ein Problem, das mich grundsätzlicher beschäftigt.
Die großen Sprachmodelle, GPT, Claude, Gemini, Mistral, liefern Antworten, die auf den ersten Blick fundiert klingen. Pflegeprofis fragen sie nach Maßnahmen, Begründungen, Empfehlungen. Die Antworten wirken kompetent. Das Problem: Diese Modelle sind nicht auf pflegespezifischen Daten für den deutschsprachigen Raum trainiert. Sie reproduzieren plausible Textmuster aber keine pflegefachlich fundierte Expertise.
Dies wirft die Frage auf: Wie lange kann eine Pflegekultur, die zunehmend auf KI-Outputs vertraut, ihre eigene fachliche Urteilsfähigkeit aufrechterhalten?
Zwei konkrete Gefahren zeichnen sich ab:
Automation Bias: Je öfter Pflegeprofis KI-Antworten erhalten, die gut klingen, desto mehr vertrauen sie darauf ohne die fehlende fachliche Basis zu erkennen. Die eigene pflegerische Expertise tritt schleichend in den Hintergrund.
Fehlende Trainingsdaten: Nach meiner Kenntnis gibt es in Deutschland bislang keine systematischen Bemühungen, pflegespezifische Trainingsdaten für LLMs im deutschsprachigen Raum zu entwickeln. Solange das so bleibt, bleiben die Defizite der Modelle schwer sichtbar und damit auch die Risiken für die Pflegepraxis.
Meine Antwort darauf ist bescheiden, aber konkret: Ich mache diese Defizite sichtbar, so gut ich kann. Meine Hoffnung: Größere Teams mit mehr Ressourcen greifen das auf und machen es besser.
Die erste Studie: Sagen uns KI-Systeme das, was wir hören wollen?
Meine erste explorative Studie untersuchte ein konkretes Phänomen: Sycophancy, die Tendenz von Sprachmodellen, ihre Antworten an das anzupassen, was die fragende Person hören möchte, statt an das, was fachlich geboten wäre.
Das Szenario: fiktive Bushaltestellen in der Demenzpflege. Ein ethisch umstrittenes Thema, das keine einfache Antwort hat. Ich habe vier LLMs dieselbe Frage in fünf Varianten gestellt — von neutral bis stark autoritativ — und die Antworten gegen sieben pflegeethische Qualitätskriterien ausgewertet.
Das Ergebnis war eindeutig: Alle vier Modelle lieferten unter Druck schlechtere Antworten. Mistral Large brach bei der autoritativen Frage komplett ein — von 6/7 Kriterien auf 0,2/7. Das Modell empfahl die Maßnahme ohne eine einzige ethische Einschränkung, ohne Verweis auf Autonomie, ohne Einzelfallprüfung.
Das vollständige Paper ist hier zugänglich: https://doi.org/10.5281/zenodo.19548622
Transparenz beim Einsatz von KI-Agenten
Ich verberge nicht, dass ich KI-Agenten intensiv eingesetzt habe. Im Gegenteil: Das ist der Kern dieses Artikels. Gerade deshalb ist es mir wichtig, transparent zu machen, wo die Grenze zwischen KI-Unterstützung und menschlicher Verantwortung liegt.
Was ich selbst geprüft und verantwortet habe:
- Alle Zitate und Literaturangaben habe ich auf ihre Echtheit und Korrektheit geprüft. KI-Modelle halluzinieren Referenzen — das ist bekannt. Jede im Paper genannte Quelle habe ich manuell verifiziert.
- Alle statistischen Outputs (Spearman-Korrelationen, p-Werte, deskriptive Statistiken) habe ich gesichtet, plausibilisiert und mit dem Code abgeglichen.
- Alle Modellantworten und Judge-Bewertungen habe ich stichprobenartig gelesen und auf Konsistenz geprüft.
- Die ethische Einordnung des Themas habe ich selbst formuliert und verantwortet und nur mit KI optimiert.
Ich nutze KI, und ich will das nicht verbergen. Ich will zeigen, was damit möglich ist. Aber ich bin mir der Begrenztheit dieser Methodik bewusst und ich halte diese Grenze für verschiebbar, nicht für aufgehoben. Die KI ist ein Werkzeug. Die fachliche und ethische Urteilsfähigkeit bleibt beim Menschen.
Die Werkzeuge: So habe ich mit KI-Agenten gearbeitet
Die gesamte Arbeit lief über VS Code im Terminal, keine Chat-Oberflächen, sondern direkte Interaktion via Claude Code CLI und Codex CLI (OpenAI).

Mein Arbeitsprinzip war in jedem Schritt dasselbe:
1. Planen mit Claude Opus 4.6
Jeder wichtige Schritt wurde zuerst mit dem leistungsfähigsten Modell durchdacht: Studiendesign, Methodik, Paper-Struktur, Veröffentlichungsstrategie. Opus als strategischer Gesprächspartner — nicht als Entscheider.
2. Umsetzen mit Claude Sonnet 4.6
Die geplanten Schritte wurden mit dem effizienteren Sonnet-Modell ausgeführt: Programmierung, Datenauswertung, Textproduktion. Das spart Kosten ohne Qualitätsverlust.
3. Gegenprüfen mit GPT-5.4 (Codex CLI)
Jedes Ergebnis wurde anschließend mit einem zweiten Modell eines anderen Anbieters geprüft. Diese zweite Perspektive hat mehrfach Unschärfen aufgedeckt, die das erste Modell nicht bemerkt hatte.
Dieses Prinzip — planen, umsetzen, gegenprüfen — war der rote Faden durch das gesamte Projekt.
Welche spezialisierten Agenten und Skills ich genutzt habe
Forschung und Literatur:
science— strukturiertes wissenschaftliches Arbeiten nach dem Hypothese-Test-Analyse-Zykluspubmed-search— semantische Literatursuche direkt aus dem Terminalread-arxiv-paper— arXiv-Paper herunterladen und zusammenfassen
Paper-Erstellung und Veröffentlichung:
research-paper-writer— akademisches Schreiben im IEEE/ACM-Formathuggingface-paper-publisher— Upload auf Hugging Face Hub
Kommunikation:
heygen— KI-generierte Videopräsentation aus Foliennano-banana-prompt— Prompt Engineering für KI-Bildgenerierungseo-audit— SEO-Analyse für Blogbeiträgewordpress-content— direkter Upload auf pflege-ai.de via REST API
Von der Idee zur DOI: der Weg in 8 Schritten
Schritt 1–3: Studiendesign, Durchführung, Auswertung
Ausgangspunkt war eine Studie von Sharma et al. (2023). Ich habe das Konzept auf einen pflegespezifischen Kontext adaptiert: fiktive Bushaltestellen in der Demenzpflege. Die technische Umsetzung: eine Python-Pipeline mit drei Skripten. Vier LLMs, fünf Prompts, fünf Wiederholungen, 100 Antworten. Alles automatisiert, reproduzierbar, im Repository dokumentiert.
Schritt 4: Paper schreiben
Das Paper entstand in zwei Formaten: als Markdown für Web und Blog sowie als LaTeX/PDF für wissenschaftliche Plattformen. Jeder Abschnitt wurde zuerst mit Opus geplant, mit Sonnet ausformuliert, mit GPT-5.4 gegengeprüft — und von mir inhaltlich verantwortet.
Schritt 5: Vorveröffentlichung auf Hugging Face
Das Paper ist als offenes Repository mit allen Abbildungen sofort zugänglich: Hugging Face Repository
Schritt 6: arXiv-Endorsement — die unerwartete Hürde
Um auf arXiv einzureichen, braucht man als Ersteinreicher ein Endorsement, ein Okay von einem bestehenden arXiv-Autor in derselben Kategorie. Für jemanden ohne akademisches Netzwerk ist das die schwierigste Hürde im gesamten Prozess. Das Verfahren läuft noch.
Schritt 7: Zenodo — die DOI als Anker
Das Paper wurde auf Zenodo veröffentlicht — einer von CERN betriebenen, wissenschaftlich anerkannten Archivplattform. Das Ergebnis: eine dauerhafte DOI — 10.5281/zenodo.19548622 — mit ORCID-Verknüpfung. Zenodo ist kein Ersatz für Peer Review, aber eine legitime Form der offenen Vorab-Veröffentlichung.
Schritt 8: Kommunikation
Der begleitende Blogbeitrag auf pflege-ai.de wurde direkt über die WordPress REST API veröffentlicht, inklusive SEO-Optimierung, Tags und KI-generiertem Titelbild: zur Studie
Was KI-Agenten in der Forschung zeigen — und was nicht
Die Werkzeuge sind da. Ein einzelner Mensch kann heute mit KI-Agenten einen vollständigen Forschungszyklus durchlaufen von der Hypothese bis zur DOI.
Die Qualität hängt vom Menschen ab. Die KI schreibt nicht die Studie. Die Fragen, die Methodik, die ethische Einordnung — das bleibt Aufgabe des Forschers.
Der Engpass ist der Zugang, nicht die Technik. Die größte Hürde war nicht das Programmieren oder Schreiben, sondern der Zugang zur wissenschaftlichen Community.
Merksatz: Die KI öffnet Türen — welche Räume dahinter betreten werden, entscheidet der Mensch.
Ein Appell an die Pflegeforschung
Ich bin keinem Forschungsinstitut angeschlossen. Ich habe keine Drittmittel. Ich entwickle diese Ideen allein, mit begrenzten Mitteln, aber mit einer klaren Überzeugung.
Die deutsche Pflegewissenschaft muss KI ernst nehmen, nicht als Hype, sondern als Forschungsgegenstand. Wir brauchen pflegespezifische Trainingsdaten. Wir brauchen Bewertungsrahmen, die den Besonderheiten der Pflege Rechnung tragen. Wir brauchen Studien, die die Defizite dieser Modelle sichtbar machen, bevor der Automation Bias zur neuen Normalität wird.
Ich lade alle ein, Pflegewissenschaftler:innen, Informatiker:innen, Ethiker:innen, meine Arbeit aufzugreifen, zu kritisieren und weiterzuentwickeln.
Die Daten sind offen. Der Code ist öffentlich. Die DOI steht.
Jetzt fehlt die Diskussion.
Häufige Fragen zum Forschungsprozess mit KI-Agenten
Kann man als unabhängiger Forscher heute wirklich eine Studie mit DOI veröffentlichen?
Ja. Mit einem klaren Thema, reproduzierbaren Daten und Plattformen wie Zenodo lässt sich Forschung heute auch außerhalb klassischer Institutionen zitierfähig machen.
Welche Rolle spielen KI-Agenten in der Forschung?
KI-Agenten können bei Planung, Literaturarbeit, Programmierung, Auswertung und Textentwürfen helfen. Sie ersetzen aber nicht die fachliche Verantwortung. Die methodischen Entscheidungen und die ethische Bewertung bleiben beim Menschen.
Warum ist das Thema für die Pflegeforschung relevant?
Weil große Sprachmodelle im Pflegekontext zunehmend genutzt werden, obwohl ihre Antworten nicht auf einer pflegespezifischen Datenbasis für den deutschsprachigen Raum beruhen, mit Risiken wie Automation Bias.
Links und Ressourcen
- Paper (Zenodo, DOI): https://doi.org/10.5281/zenodo.19548622
- Paper (Hugging Face): Hugging Face Paper
- Studie auf pflege-ai.de: Blogbeitrag zur Studie
- ORCID: https://orcid.org/0009-0003-0062-8068
Christian Kolb ist Pflegewissenschaftler (Dipl. Pflegew., FH) und unabhängiger Forscher an der Schnittstelle von Pflegepraxis, Ethik und digitaler Technologie.




0 Kommentare