Das renommierte medizinische Fachjournal BMJ (British Medical Journal) veröffentlicht traditionell in seiner Weihnachtsausgabe wissenschaftliche Studien, die abseits des medizinischen Alltags angesiedelt sind und die „über den Tellerrand blicken“. So auch in diesem Jahr. Am 20. Dezember 2024 erschien ein Paper, in dem untersucht wurde, ob Large Language Models (LLM) wie ChatGPT oder Gemini (vulgo: KI) im Alter kognitive Einschränkungen ähnlich wie Menschen zeigen können, insbesondere im Hinblick auf ihre potenzielle Rolle in der medizinischen Diagnostik. Die Autoren bewerteten die kognitiven Fähigkeiten führender Sprachmodelle und ihre Anfälligkeit für kognitive Beeinträchtigungen mittels standardisierter Tests wie dem Montreal Cognitive Assessment (MoCA).
Die Studienteilnehmer waren die KI-Modelle ChatGPT 4 und 4o, Claude 3.5 und Gemini 1.0 und 1.5. Als Testverfahren diente der MoCA-Test (Version 8.1), ergänzt durch visuelle und exekutive Tests (z. B. Navon-Figuren, Stroop-Test). Alle Tests wurden per Text durchgeführt. Die Auswertung erfolgte durch Neurologen, die die Ergebnisse anhand der offiziellen MoCA-Richtlinien bewerteten.
Höchste Punktzahl für ChatGPT 4o
Es zeigte sich, dass ChatGPT 4o beim MoCA die höchste Punktzahl (26/30) erzielte, gefolgt von ChatGPT 4 und Claude (je 25/30). Gemini 1.0 schnitt am schlechtesten ab (16/30). Als Hauptdefizite identifizierten die Neurologen, dass alle Modelle Schwächen in visuospatialen und exekutiven Aufgaben zeigten, wie z. B. beim Zeichnen von Figuren oder beim Nachverfolgen von Mustern. Ältere Modelle (z. B. Gemini 1.0) erzielten dabei schlechtere Ergebnisse als neuere Versionen, was auf eine Art „kognitive Alterung“ hinweist. Keine KI erkannte soziale oder emotionale Nuancen, wie z. B. „Gefahr“ im Cookie-Theft-Picture-Test. Im Stroop-Test meisterte nur ChatGPT 4o die schwierigere Phase mit inkongruenten Farben.
„Ältere Modelle“ weisen Defizite auf – bei LLM und Menschen
Die Studie legt nahe, dass aktuelle Sprachmodelle zwar in einigen kognitiven Bereichen hervorragend abschneiden, jedoch signifikante Defizite in visuellen und exekutiven Funktionen aufweisen. Diese Schwächen können die Zuverlässigkeit von KI-Modellen in der medizinischen Diagnostik beeinträchtigen und das Vertrauen von Patientinnen und Patienten belasten. Darüber hinaus zeigen ältere Modelle Anzeichen einer „kognitiven Verschlechterung“, ähnlich wie bei menschlicher Alterung.
Die Ergebnisse stellen die Annahme infrage, dass KI-Modelle bald Ärztinnen und Ärzte vollständig ersetzen könnten. Vielmehr könnten neurologische Tests für KI eine neue Dimension in der Mensch-Maschine-Interaktion eröffnen.
Diese Studienzusammenfassung wurde von ChatGPT 4o erstellt – allerdings mit umfangreicher Hilfestellung durch das Medical-writing-Team der 21up. Frohe Weihnachten!
Quelle: BMJ 2024;387:e081948