Ein Neuroradiologe analysiert ein MRT des Gehirns, während er mit einem Stift darauf zeigt und einen Befundbericht über ein Headset-Mikrofon diktiert. — © Focalfinder - stock.adobe.com

Sprachbasierte KI-Modelle können laut Studie diagnostische Genauigkeit verbessern

01.06.2026 11.24 / RT-Redaktion / Studie

Ein Forschungsteam der LMU München, des LMU Klinikums, des Karlsruher Instituts für Technologie und der Universität Bayreuth hat nun untersucht, wie unterschiedliche Formen von KI-Erklärungen die diagnostische Genauigkeit in der Radiologie beeinflussen. In einem randomisierten Experiment beurteilten 101 Radiologen reale klinische Fälle mit radiologischen Bildern, etwa aus der Computertomografie (CT) oder der Magnetresonanztomografie (MRT), und sollten jeweils eine Diagnose als Freitext formulieren. „In der Radiologie geht es oft darum, komplexe Bildbefunde mit klinischen Informationen zusammenzuführen“, sagt Boj Friedrich Hoppe vom LMU Klinikum. „Sprachmodelle können hier prinzipiell unterstützen. Unsere Studie zeigt aber, dass nicht jede Form von KI-Hilfe gleich hilfreich ist. Entscheidend ist, ob die Ärztinnen und Ärzte die Empfehlung nachvollziehen und kritisch prüfen können.“

Diagnose allein reicht nicht

Die Teilnehmenden wurden zufällig vier Gruppen zugeteilt: eine arbeitete ohne KI-Unterstützung, drei weitere erhielten unterschiedliche Hinweise eines multimodalen Sprachmodells. Die KI gab entweder nur eine Diagnose, eine Differentialdiagnose oder eine schrittweise ,Chain-of-Thought'-Erklärung aus. Letztere erläuterte Bildmerkmale, klinische Hinweise und Ausschlusskriterien nachvollziehbar und half den Ärzten besonders dabei, die Empfehlung mit ihrem Fachwissen abzugleichen.

Für die klinische Praxis sei es nicht ausreichend, wenn ein KI-System nur eine plausibel klingende Antwort gebe, so Hoppe. Ärzte müssten nachvollziehen können, welche Hinweise für eine Diagnose sprechen und wo mögliche Unsicherheiten liegen. Die Studie zeigt: Radiologen erzielten die höchste diagnostische Genauigkeit mit schrittweisen KI-Erklärungen – die Trefferquote lag 12,2 Prozentpunkte über der Kontrollgruppe ohne KI. Einfache Diagnoseausgaben und Differentialdiagnosen schnitten schlechter ab. Besonders bei fehlerhaften KI-Vorschlägen folgten Teilnehmende der Differentialdiagnose häufiger, was auf Automationsbias hindeutet. Schritt-für-Schritt-Erklärungen halfen dagegen, korrekte Hinweise gezielter zu übernehmen und Fehler eher zu erkennen.

Die Ergebnisse legen nahe, dass nicht allein die Qualität der Diagnose entscheidend ist, sondern auch die Form der Erklärung. Schrittweise Begründungen machen die Argumentation des Modells sichtbarer und erleichtern den Abgleich mit dem eigenen Fachwissen.

Differentialdiagnosen sind in der Medizin wichtig. In der Interaktion mit Sprachmodellen können sie jedoch mehrere Diagnosen nennen und so den Eindruck erwecken, der diagnostische Raum sei bereits vollständig abgedeckt. Das kann dazu führen, dass Ärzte bei seltenen oder komplexen Fällen weniger über die genannten Diagnosen hinausdenken.

Bedeutung über die Medizin hinaus

Die Studie fokussiert sich zwar auf die Radiologie, ihre Ergebnisse reichen laut Stefan Feuerriegel, Professor an der LMU Munich School of Management und korrespondierender Autor der Studie, aber weit darüber hinaus. Systeme wie ChatGPT würden zunehmend für Entscheidungen im Alltag und Beruf genutzt. „Unsere Ergebnisse zeigen: Wer nicht nur nach einer Antwort fragt, sondern auch nach einer nachvollziehbaren Begründung, kann solche Systeme deutlich besser nutzen.“ Entscheidend sei daher die Art der Interaktion. Nutzer sollten KI-Antworten aktiv prüfen. Eine gute KI-Antwort sei nicht nur korrekt, sondern überprüfbar, so Feuerriegel.

Die Forschenden betonen, dass Sprachmodelle Fehler machen können – sowohl bei Diagnosen als auch bei deren Begründung. Gerade schrittweise Erklärungen könnten helfen, Empfehlungen kritisch zu prüfen. Die Studie zeigt: KI verbessert die diagnostische Leistung vor allem dann, wenn ihre Vorschläge nachvollziehbar präsentiert werden. Knappe Antworten oder reine Listen können dagegen Fehlvertrauen fördern.

Publikation: Philipp Spitzer, Daniel Hendriks, Jan Rudolph, Sarah Schlaeger, Jens Ricke, Niklas Kühl, Boj Friedrich Hoppe & Stefan Feuerriegel: The effect of medical explanations from large language models on diagnostic accuracy in radiology. In: npj Digital Medicine, Volume 9, Article 33, 2026. www.nature.com/articles/s41746-026-02619-0

Dieser Beitrag stammt aus dem Newsletter Radiologie im Juni 2026. Melden Sie sich hier kostenlos an, um keine News aus der Branche mehr zu verpassen!

Sprachbasierte KI-Modelle können laut Studie diagnostische Genauigkeit verbessern

Diagnose allein reicht nicht

Bedeutung über die Medizin hinaus

Konkakt

Shop