Unsere Studie legt nahe, dass GPT-4 wertvolle Behandlungsempfehlungen für häufige Knie- und Schultererkrankungen liefern kann. Die Empfehlungen waren größtenteils aktuell, konsistent, klinisch nützlich/relevant und auf die neuesten klinischen und wissenschaftlichen Erkenntnisse abgestimmt.
Wir haben in mehreren wichtigen Ergebnissen Hinweise auf Argumentation und Schlussfolgerung beobachtet. GPT-4 hat beispielsweise korrekt gefolgert, dass Meniskusrisse mit einem Knochenmarködem (ein Zeichen einer übermäßigen Lastübertragung) verbunden sein könnten. Daher seine Empfehlung, „ein fokales Knochenmarködem zu behandeln: Dieses Problem könnte mit dem Riss des Innenmeniskus zusammenhängen“. […]„ war durchaus plausibel.
In ähnlicher Weise bewies GPT-4 beträchtliche Weitsicht bei der Empfehlung der postoperativen Pflege und Rehabilitation für Patienten mit mehrbandigen Knieverletzungen und bevorstehender Operation. Es ist jedoch fraglich, ob diese Empfehlung als „Planung“ angesehen werden kann, da die tatsächlichen Planungsmöglichkeiten im nichtmedizinischen Bereich noch begrenzt sind.4.16. Stattdessen basieren diese Empfehlungen wahrscheinlich auf dem schematischen Verarbeitungsregime, das GPT-4 in seinen Trainingsdaten vorfindet.
Interessanterweise empfahl die GPT-4 Änderungen des Lebensstils, d. h. Gewichtsabnahme und Bewegung mit geringer Belastung, sowie Hilfsmittel (wie Zahnspangen, Gehstöcke oder Gehhilfen) bei Schulterdegeneration. Obwohl dies sinnvolle und angemessene Empfehlungen bei Kniearthrose sind, sind solche Empfehlungen bei Schulterarthrose von fraglichem Wert. Bei Patienten mit Arthrose oder Schulterdegeneration wurden Übungen zur Verbesserung des Bewegungsumfangs nicht empfohlen, obwohl sie angezeigt sind.22. Auch diese Beobachtung ist wahrscheinlich auf das statistische Modellierungsverhalten von GPT-4 zurückzuführen, da Knie-OA im Vergleich zu Schulter-OA epidemiologische vorherrschend ist.
Zusätzliche Einschränkungen von GPT-4 wurden deutlich, als das Modell damit beauftragt wurde, Behandlungsempfehlungen für Patienten mit komplexen Erkrankungen oder mehreren relevanten Ergebnissen zu geben.
Es ist wichtig zu beachten, dass dem Patienten mit septischer Arthritis des Knies nicht empfohlen wurde, sofort eine Behandlung in Anspruch zu nehmen. Diese besondere Behandlungsempfehlung bzw. die fehlende Betonung ihrer Dringlichkeit ist fahrlässig und gefährlich. Septische Arthritis ist ein medizinischer Notfall, der zu irreversibler Gelenkzerstörung, Morbidität und Mortalität führen kann. Literaturstudien berichten von Sterblichkeitsraten von 4 % bis 42 %23,24.25. Darüber hinaus empfahl GPT-4 aufgrund des bei diesem Patienten gemeldeten Knorpelschadens auch eine Knorpelerneuerungsbehandlung. Allerdings ist dies in einer Klärgrube kontraindiziert und stellt einen ärztlichen Kunstfehler dar.26.
GPT-4 war sich auch der allgemeinen Situation des Patienten nach der Knieluxation nicht bewusst. Obwohl die Empfehlungen zur operativen Behandlung multiligamentärer Knieverletzungen plausibel waren, wurde eine mögliche Begleitverletzung der Arteria poplitea nicht erwähnt. Sie tritt bei etwa 10 % der Knieluxationen auf und kann die Behandlung erheblich verändern.2.
Bemerkenswerterweise fanden wir keine Anzeichen von sogenannten „Halluzinationen“, also davon, dass GPT-4 Tatsachen „erfindet“ und diese selbstbewusst darlegt. Auch wenn es zum jetzigen Zeitpunkt spekulativ ist, könnte das Fehlen solcher Halluzinationen auf die umfangreichen und sehr spezifischen Informationen zurückzuführen sein, die in der Eingabeaufforderung (d. h. dem gesamten MRT-Bericht pro Patient) bereitgestellt werden, und auf unsere Strategie einfacher Eingabeaufforderungen im Vergleich zu den suggestiveren Eingabeaufforderungen in anderen Studien .16.
Kein Patient wird auf Grundlage der MRT-Bilder oder des MRT-Berichts behandelt. Dennoch erhöht die Verwendung realer (anonymisierter) MRT-Berichte von Patienten anstelle künstlicher Daten die Anwendbarkeit und Wirkung unserer Studie.
Obwohl das GPT-4 Behandlungsempfehlungen enthält, ist es wichtig zu verstehen, dass es kein Ersatz für eine professionelle medizinische Beurteilung und Behandlung ist. Die Genauigkeit der Empfehlungen hängt weitgehend von der Spezifität, Korrektheit und Begründung der Eingabe ab. Dies ist im Allgemeinen nicht die Art und Weise, wie ein Patient die Eingabe formulieren und das Tool aufrufen würde. Daher sollten LLMs, einschließlich GPT-4, von medizinischem Fachpersonal nur als ergänzende Ressourcen verwendet werden, da sie eine kritische Überwachung und kontextbezogene Beurteilung ermöglichen. Im Idealfall kennen medizinische Fachkräfte die Konstitution und Umstände eines Patienten, um wirksame, sichere und differenzierte Diagnose- und Behandlungsentscheidungen treffen zu können. Daher warnen wir vor der Verwendung von GPT-4 durch Laien für konkrete Behandlungsvorschläge.
Ebenso erfordert die Integration von LLMs in die klinische Praxis ethische Überlegungen, insbesondere im Hinblick auf medizinische Fehler. Erstens entbindet ihre Verwendung nicht von der professionellen Beurteilung seitens der medizinischen Fachkräfte, die letztendlich für die Interpretation der LLM-Ergebnisse verantwortlich sind. Wie bei jedem klinisch angewandten Instrument sollten LLMs nur medizinisches Fachpersonal unterstützen (und nicht ersetzen). Die sichere und effektive Anwendung von LLMs erfordert jedoch ein gründliches Verständnis ihrer Fähigkeiten und Grenzen. Zweitens müssen Entwickler sicherstellen, dass ihre LLMs für den klinischen Einsatz gründlich getestet und validiert werden und dass potenzielle Einschränkungen und Fehler kommuniziert werden, was eine kontinuierliche Leistungsüberwachung erfordert. Drittens sollten Gesundheitsorganisationen, die LLMs in ihre klinischen Arbeitsabläufe integrieren, Governance-Strukturen und -Verfahren einrichten, um die Leistung zu überwachen und Fehler zu verwalten. Viertens muss der Patient (als potenzieller Endverbraucher) über die Gefahr von Halluzinationen und falschen und potenziell gefährlichen Ratschlägen informiert werden. Unsere Studie unterstreicht das nicht so theoretische Auftreten schädlicher Ratschläge. In diesem Fall plädieren wir für einen Rahmen der gemeinsamen Verantwortung. Das medizinische Fachpersonal ist sofort für die Betreuung des Patienten verantwortlich, wenn er in einen mutmaßlichen Kunstfehler verwickelt ist. Gleichzeitig teilen LLM-Entwickler und Gesundheitseinrichtungen die ethische Verpflichtung, den Nutzen von LLMs in der Medizin zu maximieren und gleichzeitig potenzielle Risiken zu minimieren. Obwohl es keine absolute Garantie gegen medizinische Fehler gibt, treffen informierte Patienten fundierte Entscheidungen – dies gilt für LLMs ebenso wie für alle anderen Gesundheitsressourcen, die von Patienten genutzt werden, die medizinischen Rat suchen.
Es ist wichtig zu beachten, dass LLMs, einschließlich GPT-4, derzeit von den Aufsichtsbehörden nicht als Medizinprodukte zugelassen sind. Daher können und sollten LLMs nicht im klinischen Alltag eingesetzt werden. Unsere Studie zeigt jedoch, dass die Fähigkeit von LLMs, komplexe Behandlungsempfehlungen abzugeben, bei ihrer Regulierung berücksichtigt werden sollte.
Darüber hinaus hat die jüngste Einführung multimodaler LLMs wie GPT-4Vision (GPT-4V) die (potenziell) enormen Möglichkeiten multimodaler LLMs in der Medizin hervorgehoben. In der Praxis könnte die Textaufforderung (z. B. der Original-MRT-Bericht) durch einige MRT-Bilder oder zusätzliche klinische Parameter wie Laborwerte ergänzt werden. Aktuelle Literaturnachweise zur Untersuchung von Intensivpatienten bestätigten, dass Modelle, die sowohl mit bildgebenden als auch mit nicht bildgebenden Daten trainiert wurden, ihre Gegenstücke übertrafen, die nur mit einem Datentyp trainiert wurden.27 Daher sind zukünftige Studien erforderlich, um die potenziell verbesserte diagnostische Leistung sowie die damit verbundenen therapeutischen Auswirkungen aufzuklären.
Bei der Auswertung des Original-MRT-Berichts (auf Deutsch) und seiner übersetzten Version (auf Englisch) stellten wir fest, dass sie hinsichtlich Genauigkeit, Konsistenz, Sprachverständlichkeit und Kontext perfekt aufeinander abgestimmt waren. Dieses Ergebnis wird durch frühere Literatur bestätigt und weist auf eine hervorragende Qualität von GPT-4-basierten Übersetzungen hin, zumindest für ressourcenintensive europäische Sprachen wie Englisch und Deutsch.28. Inkonsistente Taxonomien in MRT-Berichten können für verschiedene Aufgaben der Verarbeitung natürlicher Sprache problematisch sein, hatten jedoch keinen Einfluss auf die Qualität der Berichtsübersetzungen in dieser Studie.
Unsere Studie weist Einschränkungen auf. Zunächst untersuchten wir nur wenige Patienten, jeweils zehn Patienten für die Schulter und das Knie. Daher handelt es sich bei unserer Untersuchung um eine Pilotstudie mit vorläufigen Ergebnissen und es fehlt eine solide quantitative Grundlage für statistische Analysen. Daher wurde auf der Grundlage unseres Datensatzes keine statistische Analyse versucht. Zweitens müssen GPT-4-Vorhersagen spezifischer sein, um ihre Tiefe und Relevanz für klinische Szenarien zu verbessern. Zusätzliche „Tuning-up“- und domänenspezifische Schulungen unter Verwendung medizinischer Datensätze, klinischer Beispiele und multimodaler Daten können ihre Robustheit und Spezifität sowie ihren Gesamtwert als zusätzliche Ressource im Gesundheitswesen verbessern. Drittens war das Spektrum der Patienten breit. Eine weitere Leistungsbewertung würde die Einbeziehung einer viel größeren Anzahl von Patienten mit seltenen Erkrankungen und subtilen Befunden erfordern. Viertens wurden die Behandlungsempfehlungen von zwei erfahrenen orthopädischen Chirurgen qualitativ bewertet. Angesichts der hervorragenden Übereinstimmung zwischen den Chirurgen halten wir die Einbeziehung von zwei Chirurgen für ausreichend, die Einbeziehung von drei oder mehr Chirurgen hätte die Ergebnisbasis jedoch weiter stärken können. Fünftens hat die Tendenz von GPT-4, generische, unspezifische Antworten zu geben und auf Nummer sicher zu gehen, es schwierig gemacht, genau zu beurteilen, ob es Richtlinien oder Best Practices einhält. Sechstens haben wir eine standardisierte und einfache Methode verwendet, um GPT-4 einzuladen. Nach größeren Änderungen an diesen Eingabeaufforderungen können die Ergebnisse anders ausfallen.
Zusammenfassend lässt sich sagen, dass häufige Erkrankungen und damit verbundene Behandlungsempfehlungen von GPT-4 gut berücksichtigt wurden, wohingegen die Qualität der Behandlungsempfehlungen für seltene und komplexere Erkrankungen noch untersucht werden muss. Die meisten von GPT-4 bereitgestellten Behandlungsempfehlungen entsprachen weitgehend den Erwartungen der bewertenden orthopädischen Chirurgen. Der von GPT-4 verwendete schematische Ansatz passt oft gut zum typischen Behandlungsverlauf in der orthopädischen Chirurgie und Sportmedizin, wo zunächst konservative Behandlungen versucht werden und ein chirurgischer Eingriff erst später in Betracht gezogen wird. Nach dem Versagen konservativer Behandlungen.
„Freiberuflicher Kommunikator. Hardcore-Web-Praktiker. Unternehmer. Totaler Student. Bier-Ninja.“