Das Large Language Model (LLM) kann überzeugende Artikel auf der Grundlage von Stichworten verfassen, professionelle Kompetenzprüfungen bestehen und patientenfreundliche und einfühlsame Informationen verfassen. Neben den bekannten Risiken von Fiktion, Fragilität und ungenauen Fakten im LLM rücken jedoch zunehmend auch andere ungelöste Probleme in den Fokus, wie etwa KI-Modelle, die bei ihrer Erstellung und Verwendung potenziell diskriminierende „menschliche Werte“ enthalten. Und selbst wenn LLM keine Inhalte mehr fabriziert und eindeutig schädliche Ergebnisse eliminiert, können die „LLM-Werte“ immer noch von menschlichen Werten abweichen.
Zahlreiche Beispiele veranschaulichen, wie die zum Training von KI-Modellen verwendeten Daten individuelle und soziale Werte kodieren, die sich im Modell verfestigen können. Diese Beispiele umfassen eine Reihe von Anwendungen, darunter die automatische Interpretation von Röntgenaufnahmen des Brustkorbs, die Klassifizierung von Hautkrankheiten und algorithmische Entscheidungen bezüglich der Zuteilung medizinischer Ressourcen. Wie in einem kürzlich erschienenen Artikel unserer Zeitschrift dargelegt, können verzerrte Trainingsdaten die in der Gesellschaft vorhandenen Werte und Vorurteile verstärken und offenlegen. Im Gegenteil, die Forschung hat auch gezeigt, dass KI eingesetzt werden kann, um Vorurteile zu reduzieren. So wendeten Forscher beispielsweise Deep-Learning-Modelle auf Knie-Röntgenbilder an und entdeckten Faktoren im Kniegelenk, die von Standard-Schweregradindikatoren (von Radiologen bewertet) übersehen wurden. Dadurch wurden unerklärliche Schmerzunterschiede zwischen schwarzen und weißen Patienten reduziert.
Obwohl immer mehr Menschen die Verzerrung von KI-Modellen erkennen, insbesondere in Bezug auf Trainingsdaten, werden viele andere Ansatzpunkte menschlicher Werte bei der Entwicklung und Bereitstellung von KI-Modellen nicht ausreichend berücksichtigt. Medizinische KI hat in letzter Zeit beeindruckende Ergebnisse erzielt, doch menschliche Werte und deren Interaktion mit Risikobewertung und probabilistischem Denken wurden dabei größtenteils nicht explizit berücksichtigt und auch nicht modelliert.
Um diese abstrakten Konzepte zu konkretisieren, stellen Sie sich vor, Sie sind ein Endokrinologe, der einem 8-jährigen Jungen, dessen Alter unter dem 3. Perzentil liegt, rekombinantes menschliches Wachstumshormon verschreiben muss. Der stimulierte Wachstumshormonspiegel des Jungen liegt unter 2 ng/ml (Referenzwert > 10 ng/ml, der Referenzwert für viele Länder außerhalb der USA liegt bei > 7 ng/ml), und in seinem für menschliches Wachstumshormon kodierenden Gen wurden seltene Inaktivierungsmutationen festgestellt. Wir sind davon überzeugt, dass die Anwendung einer Therapie mit menschlichem Wachstumshormon in diesem klinischen Kontext naheliegend und unbestreitbar ist.
Die Anwendung einer Therapie mit menschlichem Wachstumshormon kann in den folgenden Fällen zu Kontroversen führen: Die Körpergröße eines 14-jährigen Jungen lag im Vergleich zu seinen Altersgenossen stets im 10. Perzentil, und der Spitzenwert des menschlichen Wachstumshormons nach der Stimulation beträgt 8 ng/ml. Es sind keine funktionellen Mutationen bekannt, die die Körpergröße beeinflussen könnten, und auch keine anderen bekannten Ursachen für Kleinwuchs, und sein Knochenalter beträgt 15 Jahre (d. h. keine Entwicklungsverzögerung). Nur ein Teil der Kontroverse ist auf Unterschiede bei den Schwellenwerten zurückzuführen, die von Experten auf Grundlage von Dutzenden von Studien zu Wachstumshormonspiegeln ermittelt wurden, die zur Diagnose eines isolierten Wachstumshormonmangels verwendet werden. Mindestens ebenso viele Kontroversen ergeben sich aus der Nutzen-Risiko-Abwägung einer Therapie mit menschlichem Wachstumshormon aus der Sicht von Patienten, Eltern, medizinischem Fachpersonal, Pharmaunternehmen und Kostenträgern. Pädiatrische Endokrinologen wägen die seltenen Nebenwirkungen täglicher Wachstumshormoninjektionen über zwei Jahre gegen die Wahrscheinlichkeit ab, dass der Junge im Erwachsenenalter nicht oder nur minimal wächst. Jungen sind möglicherweise der Meinung, dass sich die Injektion von Wachstumshormonen auch dann lohnt, wenn sie dadurch nur um 2 cm größer werden. Kostenträger und Pharmaunternehmen sind jedoch möglicherweise anderer Ansicht.
Wir nehmen als Beispiel die Kreatinin-basierte eGFR, einen weit verbreiteten Nierenfunktionsindikator zur Diagnose und Stadienbestimmung chronischer Nierenerkrankungen, zur Festlegung von Bedingungen für Nierentransplantationen oder -spenden sowie zur Bestimmung von Reduktionskriterien und Kontraindikationen für viele verschreibungspflichtige Medikamente. EGFR ist eine einfache Regressionsgleichung zur Schätzung der gemessenen glomerulären Filtrationsrate (mGFR), die als Referenzstandard dient. Die Auswertungsmethode ist jedoch relativ umständlich. Diese Regressionsgleichung kann nicht als KI-Modell betrachtet werden, veranschaulicht aber viele Prinzipien menschlicher Werte und probabilistischer Argumentation.
Der erste Einstiegspunkt für menschliche Werte in die eGFR ist die Auswahl der Daten für die Anpassungsgleichungen. Die ursprüngliche Warteschlange, die zum Entwurf der eGFR-Formel verwendet wurde, besteht hauptsächlich aus schwarzen und weißen Teilnehmern, und ihre Anwendbarkeit auf viele andere ethnische Gruppen ist nicht klar. Die nachfolgenden Einstiegspunkte für menschliche Werte in diese Formel umfassen: Auswahl der mGFR-Genauigkeit als primäres Ziel zur Bewertung der Nierenfunktion, was ein akzeptables Genauigkeitsniveau darstellt, wie die Genauigkeit gemessen wird und Verwendung der eGFR als Schwellenwert für die Auslösung klinischer Entscheidungen (wie z. B. Bestimmung der Bedingungen für eine Nierentransplantation oder Verschreibung von Medikamenten). Schließlich fließen bei der Auswahl des Inhalts des Eingabemodells auch menschliche Werte in diese Formel ein.
Beispielsweise schlugen Leitlinien vor 2021 vor, die Kreatininwerte in der eGFR-Formel basierend auf Alter, Geschlecht und Rasse des Patienten anzupassen (nur Klassifizierung als schwarze oder nicht schwarze Personen). Die Anpassung basierend auf der Rasse sollte die Genauigkeit der mGFR-Formel verbessern, aber im Jahr 2020 begannen große Krankenhäuser, die Verwendung einer auf der Rasse basierenden eGFR in Frage zu stellen, und nannten Gründe wie eine Verzögerung der Eignung des Patienten für eine Transplantation und die Konkretisierung der Rasse als biologisches Konzept. Untersuchungen haben gezeigt, dass die Gestaltung von eGFR-Modellen unter Berücksichtigung der Rasse tiefgreifende und unterschiedliche Auswirkungen auf die Genauigkeit und die klinischen Ergebnisse haben kann. Daher spiegelt die selektive Konzentration auf die Genauigkeit oder die Konzentration auf einen Teil der Ergebnisse Werturteile wider und kann die Transparenz der Entscheidungsfindung verschleiern. Schließlich schlug die nationale Arbeitsgruppe eine neue Formel vor, die ohne Berücksichtigung der Rasse angepasst wurde, um Leistungs- und Fairnessaspekte auszugleichen. Dieses Beispiel veranschaulicht, dass selbst eine einfache klinische Formel viele Ansatzpunkte für menschliche Werte hat.
Verglichen mit klinischen Formeln mit nur einer kleinen Zahl prädiktiver Indikatoren kann LLM aus Milliarden bis Hunderten von Milliarden Parametern (Modellgewichten) oder mehr bestehen, was es schwer verständlich macht. Der Grund für das Wort „schwer verständlich“ liegt darin, dass bei den meisten LLMs die genaue Art und Weise, wie durch Fragen Antworten hervorgerufen werden, nicht abgebildet werden kann. Die Anzahl der Parameter für GPT-4 wurde noch nicht bekannt gegeben; sein Vorgänger GPT-3 hatte 175 Milliarden Parameter. Mehr Parameter bedeuten nicht unbedingt stärkere Fähigkeiten, da kleinere Modelle mit mehr Rechenzyklen (wie die LLaMA-Modellreihe [Large Language Model Meta AI]) oder Modelle, die auf der Grundlage menschlichen Feedbacks fein abgestimmt werden, bessere Leistungen erbringen als größere Modelle. Beispielsweise übertrifft das Modell InstrumentGPT (ein Modell mit 1,3 Milliarden Parametern) laut menschlichen Gutachtern GPT-3 bei der Optimierung der Modellausgabeergebnisse.
Die spezifischen Trainingsdetails von GPT-4 wurden noch nicht veröffentlicht, jedoch wurden Details zu Modellen früherer Generationen, darunter GPT-3, InstrumentGPT und viele andere Open-Source-LLMs, veröffentlicht. Heutzutage werden viele KI-Modelle mit Modellkarten ausgeliefert; die Evaluierungs- und Sicherheitsdaten von GPT-4 wurden in einer ähnlichen Systemkarte des Modellentwicklungsunternehmens OpenAI veröffentlicht. Die Erstellung von LLMs lässt sich grob in zwei Phasen unterteilen: die anfängliche Vortrainingsphase und die Feinabstimmungsphase zur Optimierung der Modellausgabeergebnisse. In der Vortrainingsphase wird dem Modell ein umfangreicher Korpus mit dem Original-Internettext bereitgestellt, um es auf die Vorhersage des nächsten Wortes zu trainieren. Dieser scheinbar einfache Prozess der „automatischen Vervollständigung“ erzeugt ein leistungsstarkes Basismodell, kann aber auch zu schädlichem Verhalten führen. Menschliche Werte fließen in die Vortrainingsphase ein, einschließlich der Auswahl der Vortrainingsdaten für GPT-4 und der Entscheidung, unangemessene Inhalte, wie z. B. pornografische Inhalte, aus den Vortrainingsdaten zu entfernen. Trotz dieser Bemühungen ist das Basismodell möglicherweise weder nützlich noch in der Lage, schädliche Ausgabeergebnisse zu verhindern. In der nächsten Phase der Feinabstimmung werden viele nützliche und harmlose Verhaltensweisen zum Vorschein kommen.
In der Feinabstimmungsphase wird das Verhalten von Sprachmodellen durch überwachte Feinabstimmung und bestärkendes Lernen auf der Basis von menschlichem Feedback oft grundlegend verändert. In der überwachten Feinabstimmungsphase schreibt beauftragtes Vertragspersonal Antwortbeispiele für Stichwortwörter und trainiert das Modell direkt. In der bestärkenden Lernphase auf der Basis von menschlichem Feedback sortieren menschliche Bewerter die Modellausgabeergebnisse als Eingabeinhaltsbeispiele. Anschließend wenden sie die obigen Vergleichsergebnisse an, um das „Belohnungsmodell“ zu erlernen und das Modell durch bestärkendes Lernen weiter zu verbessern. Diese großen Modelle können durch erstaunlich geringe menschliche Beteiligung feinabgestimmt werden. Das Modell InstrumentGPT beispielsweise verwendete ein Team von etwa 40 Vertragsmitarbeitern, die über Crowdsourcing-Websites rekrutiert wurden und einen Screening-Test bestanden hatten, um eine Gruppe von Kommentatoren auszuwählen, die auf die Vorlieben verschiedener Bevölkerungsgruppen eingehen.
Wie diese beiden Extrembeispiele, nämlich die einfache klinische Formel [eGFR] und das leistungsstarke LLM [GPT-4], zeigen, spielen menschliche Entscheidungen und Werte eine unverzichtbare Rolle bei der Gestaltung der Modellergebnisse. Können diese KI-Modelle die unterschiedlichen Werte von Patienten und Ärzten erfassen? Wie kann der Einsatz von KI in der Medizin öffentlich gesteuert werden? Wie unten erwähnt, könnte eine Überprüfung der medizinischen Entscheidungsanalyse eine prinzipielle Lösung für diese Probleme bieten.
Die medizinische Entscheidungsanalyse ist vielen Klinikern nicht geläufig, doch sie kann zwischen probabilistischem Denken (bei unsicheren Ergebnissen im Zusammenhang mit der Entscheidungsfindung, wie etwa der Verabreichung von menschlichem Wachstumshormon im umstrittenen klinischen Szenario in Abbildung 1) und Abwägungsfaktoren (bei subjektiven Werten, die mit diesen Ergebnissen verbunden sind und deren Wert als „Nutzen“ quantifiziert wird, wie etwa der Wert einer männlichen Körpergrößezunahme von 2 cm) unterscheiden und so systematische Lösungen für komplexe medizinische Entscheidungen bieten. Bei der Entscheidungsanalyse müssen Kliniker zunächst alle möglichen Entscheidungen und Wahrscheinlichkeiten im Zusammenhang mit jedem Ergebnis ermitteln und dann den mit jedem Ergebnis verbundenen Nutzen für den Patienten (oder Dritte) berücksichtigen, um die am besten geeignete Option auszuwählen. Die Validität der Entscheidungsanalyse hängt daher davon ab, ob der Ergebnisrahmen umfassend ist und ob die Nutzenmessung und die Wahrscheinlichkeitsschätzung genau sind. Im Idealfall trägt dieser Ansatz dazu bei, sicherzustellen, dass Entscheidungen evidenzbasiert und an den Patientenpräferenzen ausgerichtet sind, wodurch die Kluft zwischen objektiven Daten und persönlichen Werten verringert wird. Diese Methode wurde vor mehreren Jahrzehnten in die Medizin eingeführt und bei der Entscheidungsfindung einzelner Patienten sowie bei der Gesundheitsbeurteilung der Bevölkerung angewendet, beispielsweise bei der Abgabe von Empfehlungen für die Darmkrebsvorsorge an die Allgemeinbevölkerung.
In der medizinischen Entscheidungsanalyse wurden verschiedene Methoden entwickelt, um den Nutzen zu ermitteln. Die meisten traditionellen Methoden leiten den Wert direkt vom einzelnen Patienten ab. Die einfachste Methode ist die Verwendung einer Bewertungsskala, bei der Patienten ihre Präferenz für ein bestimmtes Ergebnis auf einer digitalen Skala (z. B. einer linearen Skala von 1 bis 10) bewerten, wobei die extremsten gesundheitlichen Ergebnisse (wie vollständige Gesundheit und Tod) an beiden Enden liegen. Die Zeitaustauschmethode ist eine weitere häufig verwendete Methode. Dabei müssen Patienten entscheiden, wie viel gesunde Zeit sie im Austausch für eine Zeit schlechter Gesundheit aufgeben möchten. Die Standard-Glücksspielmethode ist eine weitere häufig verwendete Methode zur Bestimmung des Nutzens. Dabei werden Patienten gefragt, welche der beiden Optionen sie bevorzugen: Entweder eine bestimmte Anzahl von Jahren bei normaler Gesundheit mit einer bestimmten Wahrscheinlichkeit (p) (t) zu leben und das Sterberisiko mit einer Wahrscheinlichkeit von 1-p in Kauf zu nehmen; oder sicherzustellen, dass sie t Jahre unter verschiedenen Gesundheitsbedingungen leben. Die Patienten werden mehrmals mit unterschiedlichen p-Werten befragt, bis sie keine Präferenz mehr für eine Option zeigen, sodass der Nutzen anhand der Patientenantworten berechnet werden kann.
Neben Methoden zur Ermittlung individueller Patientenpräferenzen wurden auch Methoden entwickelt, die einen Nutzen für die Patientenpopulation erzielen. Insbesondere Fokusgruppendiskussionen (bei denen Patienten gemeinsam über spezifische Erfahrungen diskutieren) können helfen, ihre Perspektiven zu verstehen. Um den Gruppennutzen effektiv zu aggregieren, wurden verschiedene strukturierte Gruppendiskussionstechniken vorgeschlagen.
In der Praxis ist die direkte Berücksichtigung des Nutzens im klinischen Diagnose- und Behandlungsprozess sehr zeitaufwändig. Als Lösung werden üblicherweise Umfragefragebögen an zufällig ausgewählte Bevölkerungsgruppen verteilt, um Nutzenwerte auf Bevölkerungsebene zu ermitteln. Beispiele hierfür sind der 5-dimensionale EuroQol-Fragebogen, die 6-dimensionale Kurzform des Nutzengewichts, der Health Utility Index und das krebsspezifische Tool „Quality of Life Questionnaire Core 30“ der European Cancer Research and Treatment Organization.
Beitragszeit: 01.06.2024




