Die magische Dreifaltigkeit der TLF-Automatisierung in der Analytik klinischer Studien: Digitale Dokumente, Metadaten und GenAI

Stehen wir am Beginn einer neuen Ära der klinischen Datenanalyse? Eine Ära, in der massive Zeiteinsparungen, Qualitätsverbesserungen und Kosteneinsparungen durch die Automatisierung der Erstellung von Tabellen, Auflistungen und Abbildungen (TFL) in statistischen Ergebnissen erzielt werden können. Sicherlich der heilige Gral eines jeden Statistikprogrammierungsteams!

Stehen wir am Beginn einer neuen Ära für die Analyse klinischer Daten? Eine Ära, in der massive Zeiteinsparungen, Qualitätsverbesserungen und Kosteneinsparungen durch die Automatisierung der Erstellung von Tabellen, Listen und Abbildungen (TFLs) in den Analyseergebnissen klinischer Studien erzielt werden können. Sicherlich der heilige Gral eines jeden Statistikprogrammierungsteams! 

Der sich schnell entwickelnde Bereich der generativen KI (GenAI) ist zu erstaunlichen Leistungen bei der Codegenerierung fähig. Informieren Sie diese Modelle mit strukturierten digitalen Dokumenten (nicht mit digitalisierten Dokumenten), um die Zielausgaben zu definieren; und informieren Sie diese Modelle mit Richtlinien und Einschränkungen, die durch Normen, Metadaten und Modelle bereitgestellt werden. Das Ergebnis sind qualitativ hochwertige Ergebnisse, die lediglich bei mindestens 80 % der geplanten Ergebnisse eine Qualitätskontrolle durch einen Menschen (oder vielleicht ein unabhängiges KI-Modell?) erfordern.

"Wie kann ich anfangen?", höre ich Sie fragen. Lassen Sie uns die drei Aspekte dieser Dreifaltigkeit nacheinander betrachten.

Digitale Dokumente zu klinischen Prüfungen

Die erste Säule in unserer Dreifaltigkeit sind digitale Dokumente, also unsere Spezifikationen.

Die Organisation Transcelerate fördert die Zusammenarbeit in der biopharmazeutischen Forschung und Entwicklung, um Wege zu finden, die Entwicklung neuer Medikamente zu beschleunigen. Ein Aspekt davon ist die Harmonisierung und Digitalisierung von Studiendokumenten im Rahmen der Initiative "Clinical Content and Re-use" (CC&R).

Im Rahmen dieser laufenden Initiative wurde eine Reihe von Vorlagen für Protokoll-, SAP- und klinische Studienberichte erstellt, die die Erstellung von elektronischen, maschinenlesbaren Dokumenten ermöglichen. Dies eröffnet die Möglichkeit der Wiederverwendung von Inhalten in nachgelagerten Prozessen, wie z. B. der TLF-Erstellung.

Der SAP (Statistical Analysis Plan) ist hier das Schlüsseldokument. Darin wird detailliert beschrieben, wie die klinische Datenanalyse durchgeführt werden soll - Methoden, Populationsgröße, Endpunkte usw., was die Erstellung der ADaM-Datensätze vorantreibt. Er enthält auch Einzelheiten zu den zu erstellenden Tabellen, Abbildungen und Auflistungen, hoffentlich mit zugehörigen Tabellen-Shells, um unseren Programmierern einen Hinweis darauf zu geben, was sie produzieren sollen; oder vielleicht kann GenAI diese Mock Shells auch generieren

Ein maschinenlesbares SAP, das über alle Studien hinweg konsistent ist, wird die Chancen erhöhen, dass unsere GenAI Tabellen, Auflistungen und Abbildungen erstellt, die wir verwenden können.

Metadaten

Metadaten - Daten, die Daten beschreiben - sind unsere zweite Säule. Sie sind entscheidend, um jeden Programmierer, ob Mensch oder Computer, über die Struktur der Daten, mit denen er arbeitet, zu informieren.

Wir alle kennen die CDISC- und ADaM-Standards. Wir bemühen uns, unsere Datensätze für die klinische Datenanalyse in Übereinstimmung mit den CDISC-Standards zu entwickeln, und tatsächlich müssen die Datensätze für die Einreichung bei der FDA konform sein. Die Flexibilität der ADaM-Standards bedeutet jedoch, dass die Datensätze je nach Studie unterschiedlich aufgebaut sein können und dennoch technisch konform sind!

Wenn Ihre ADaM-Daten mit den CDISC-Standards übereinstimmen und, was noch wichtiger ist, über Studien hinweg konsistent sind, zumindest innerhalb jedes therapeutischen Bereichs (TA), wird dies wiederum ihre Verwendbarkeit durch Ihr GenAI-Modell und damit die Qualität der erstellten Programme verbessern.

Sie können und sollten auch Ihre bestehenden Programme, Makros und Ausgaben als Trainingsdaten für Ihre GenAI verwenden. Mehr dazu erfahren Sie im nächsten Abschnitt dieses Papiers.

GenAI

Die letzte und vielleicht wichtigste Säule ist das GenAI-Modell.

Unsere gemeinsame Erfahrung mit GenAI ist wahrscheinlich etwas wie ChatGPT oder Co-Pilot. Die bisherigen Versuche des Autors, ChatGPT zu bitten, Schnipsel von R-Code zu erstellen, waren bei der Ausführung nicht ganz erfolgreich. Das klingt nicht sehr vielversprechend. Es ist jedoch möglich, ein GenAI-Modell mit unserem bestehenden Repository von Programmen, Makros und Ausgaben zu trainieren.

Bei "öffentlichen" GenAI-Modellen müssten wir sicherlich unseren Code und unsere Daten für die Schulung freigeben, aber wir alle wissen, wie sensibel die Freigabe von Daten aus klinischen Studien in unserer Branche ist. Glücklicherweise ist es möglich, Ihr eigenes internes GenAI-Modell innerhalb Ihres Unternehmensnetzwerks zu implementieren, das mit unternehmensinternen Materialien und einer Auswahl an externen (öffentlichen) Materialien trainiert wird.

Bevor Sie Ihre interne GenAI aufbauen, müssen Sie jedoch einige Faktoren berücksichtigen:

  • Welches Modell
  • Wahl der Sprache
  • Ausbildung der GenAI
  • Leitlinien der Regulierungsbehörde

Modellauswahl

Nicht alle GenAI-Modelle sind gleich. Es gibt Modelle, die bereits auf Programmiersprachen wie Python, R und SAS trainiert sind. Beachten Sie jedoch, dass diese Modelle auf öffentlich zugänglichen Code-Repositories wie Github trainiert werden, wo SAS weniger verbreitet ist. Auch wenn das Modell in der Lage ist, SAS-Code zu erzeugen, muss es mit ziemlicher Sicherheit mit Ihren eigenen Daten trainiert werden, um eine qualitativ bessere Ausgabe zu erzielen.

Beispiele für GenAI-Modelle sind

GPT3 - ein großes Sprachmodell (LLM), das Text und Code, einschließlich SAS-Code, generieren kann.

CodeBERT - ein vortrainiertes Sprachmodell, das speziell für das Verstehen und Generieren von Code entwickelt wurde.

Sprache

Wie bereits erwähnt, müssen Sie sich überlegen, welche Sprache GenAI bei der Erstellung Ihres Codes verwenden soll.

R und Python haben eine große Nutzerbasis, und da sie Open Source sind, liegt der Schwerpunkt auf dem Wissensaustausch. GenAI-Modelle haben also eine breitere Wissensbasis, auf die sie zurückgreifen können.

SAS hingegen hat eine kleinere Benutzergemeinschaft und die Komplexität der Codesyntax kann es GenAI erschweren, auf Anhieb korrekt funktionierenden Code zu erstellen. Andererseits haben Sie wahrscheinlich in eine Bibliothek von SAS-Makros investiert, die die Kodierung vereinfachen und unternehmensübliche Ausgaben erzeugen.

Ausbildung

Selbst ein Modell, das bereits für die Kodierung entwickelt wurde, muss trainiert werden, um

  • die SAP und Metadaten als Input für die Erstellung von TLFs anzuerkennen
  • die Codierungsmethoden zu erlernen, die zuvor von Programmierern verwendet wurden, um Daten zu manipulieren und Ausgaben zu erzeugen
  • verstehen, wie Ihre Standardmakros funktionieren
  • das gewünschte Layout und Format der Ausgaben zu lernen

Teilen Sie Ihre Trainingsdaten in zwei Teile auf: Trainings- und Testsätze. Der Trainingssatz ermöglicht es dem GenAI-Modell, die Muster und Beziehungen zwischen den Eingaben, Programmen und Ausgaben zu lernen. Je größer Ihr Trainingsdatensatz ist, desto besser.

Der Testsatz kann dann verwendet werden, um das neu trainierte Modell zu testen. Kann das Modell angesichts eines Satzes von Eingaben - SAP-Tabellen-Shells und ADaM-Datensätze - einen Code erzeugen, der den echten Ausgaben entspricht? Wenn die Leistung nicht akzeptabel ist, sollte ein anderer Testsatz für einen weiteren Test verwendet werden.

Das Training Ihres Modells sollte ein kontinuierlicher Prozess sein - je mehr Studien erfolgreich gemeldet werden, desto mehr Metadaten sollten in Ihr Modell einfließen, um dessen Leistung zu verbessern.

Regulatorischer Leitfaden

Sowohl die EMA[1] als auch die FDA[2] haben Papiere über den Einsatz von künstlicher Intelligenz bei der Entwicklung von Arzneimitteln veröffentlicht. Keines der beiden Dokumente sollte als regulatorische Leitlinie oder Politik angesehen werden, aber beide enthalten nützliche Informationen darüber, was die Regulierungsbehörden über den Einsatz von KI denken.

Sie erinnern uns daran , dass es in der Verantwortung des Sponsors der klinischen Studie liegt, sicherzustellen, dass alle verwendeten Algorithmen, Modelle, Datensätze und Datenverarbeitungspipelines für den Zweck geeignet sind und den rechtlichen, ethischen, technischen, wissenschaftlichen und regulatorischen Standards entsprechen, wie sie in der Gesetzgebung, den GxP-Standards und den aktuellen regulatorischen Richtlinien beschrieben sind. Und beachten Sie, dass diese Richtlinien strenger sein können als das, was in der Datenwissenschaft als Standardpraxis gilt.

Wenn Sie die Einführung von GenAI in Ihrer Organisation in Erwägung ziehen, sollten Sie eine Bewertung der regulatorischen Auswirkungen und Risiken aller AI-Anwendungen durchführen und sich an die Regulierungsbehörden wenden (z. B. an das AI Steering Committee (AISC) von FDA und CDER), wenn keine klaren schriftlichen Leitlinien vorliegen.

Es wird empfohlen, beide Papiere zu lesen, da sie nützliche Informationen und Verweise enthalten, die über den Rahmen dieses Papiers hinausgehen.

Schlussfolgerung

Die GenAI-Technologie bietet sicherlich eine interessante Möglichkeit, die Erstellung von TLFs zu automatisieren. Öffentlich verfügbare Modelle wurden nicht auf Daten aus klinischen Studien trainiert. Es empfiehlt sich daher, ein Modell innerhalb Ihres Unternehmensnetzwerks zu implementieren, was auch die Bedenken hinsichtlich der Bereitstellung geschützter Daten für die breite Öffentlichkeit zerstreuen wird.

GenAI ist jedoch nicht unfehlbar. Selbst nach einem gründlichen Training Ihres Modells sollte der generierte Code unabhängig auf seine Genauigkeit getestet werden.

Und schließlich sollten Sie die Ratschläge der Aufsichtsbehörden berücksichtigen.

Wenden Sie sich an einen Experten, wenn Sie Fragen zur Analyse klinischer Studien, zum Umgang mit Zulassungsbehörden oder zu anderen in diesem Blog erwähnten Themen haben!


[1] https://www.ema.europa.eu/en/documents/scientific-guideline/reflection-paper-use-artificial-intelligence-ai-medicinal-product-lifecycle_en.pdf

[2] Einsatz von künstlicher Intelligenz und maschinellem Lernen bei der Entwicklung von Arzneimitteln und biologischen Produkten

Alastair Scarlett

Alastair Scarlett ist Senior Life Sciences Consultant bei Instem Er verfügt über mehr als 25 Jahre Erfahrung im Bereich klinischer Datenlebenszyklen und regulatorischer Technologien unserer Branche. Er war bereits als Datenmanager, SAS-Programmierer, Trainer, Business-Administrator, Scrum Master und Systemtester tätig. Dank dieser breiten Erfahrung kann er Probleme aus verschiedenen Perspektiven betrachten. In den letzten fünf Jahren arbeitete Alastair als leitender Business Analyst mit Janssen an der Entwicklung der SPACE SCE-Lösung.

Diesen Artikel teilen

Auf dem Laufenden bleiben

Holen Sie sich Expertentipps, Branchennachrichten und aktuelle Inhalte direkt in Ihren Posteingang.