Technologies

KI in klinischen Studien: Data Scientists Daniel-Timon und Paul im Interview

Erstellt am: 20.09.2023

 

Mit ihrer Arbeit verbessern sie die Qualität von Studienergebnissen und verringern den Zeit- und Kostenaufwand klinischer Studien. Dr. Daniel-Timon Spanka und Dr. Paul Wallbott geben uns in diesem Interview einen kleinen Einblick in ihre Aufgabenbereiche und den Einsatz von KI in der klinischen Forschung.

 

Ihr seid Teil des Data Science Teams bei Alcedis. Nicht jedem ist das ein Begriff. Beschreibt doch bitte kurz eure Aufgabenbereiche.

Daniel-Timon:

Meine Rolle als Product Manager Data Analytics ist sehr vielfältig. Einen Großteil meiner Zeit verwende ich für das Produktmanagement unserer KI-basierten Softwarelösungen. Mein Ziel ist es, innovative Softwareprodukte zu schaffen, die den Nutzern wie beispielsweise medizinischem Fachpersonal und Patientinnen einen echten Mehrwert bieten.

Ich bin außerdem stark in das Management von großen IT-Projekten involviert. Dort geht es darum, Data Warehouses aufzubauen und medizinische Daten durch KI zu strukturieren und nutzbar zu machen. Abgesehen davon betreiben wir in unserem Team auch Forschung. Wir schreiben wissenschaftliche Publikationen und halten Vorträge auf Konferenzen.

 

Paul:

Meine Arbeit ist je nach Projekt und Phase sehr unterschiedlich. Zu Beginn eines Projekts bin ich stark in die Entwicklung der Anwendungsfälle involviert. Dabei versuchen wir im Team zu klären welche KI-Methoden die Nutzerbedürfnisse am besten adressieren. Ein gemeinsames Verständnis für die Prozesse und verwendeten Technologien muss geschaffen werden. Danach werden Datenbestände gesichtet und Technologien vorausgewählt. Bei der praktischen Umsetzung gilt es dann die Infrastruktur zu gestalten, Daten aufzuarbeiten, Modelle auszuwählen und zu trainieren und das Ganze in eine lauffähige Software einzubetten.

 

Was genau Data Scientists sind und welche Rolle sie in der klinischen Forschung spielen, erfahren Sie hier.

 

Live Demo

Die Prüfung von Freitexten aus klinischen Studien und EDC-Systemen kann zeitaufwendig und fehleranfällig sein. In dieser Live-Demo zeigen wir Ihnen, wie unsere KI-gestützte Software Meteor Ihre Data-Management-Abteilung dabei unterstützt, bis zu 40 % der Arbeitszeit bei der Freitextprüfung einzusparen. Erleben Sie Meteor in Aktion und sehen Sie, wie manuelle Prozessschritte während Data Reviews auf ein Minimum reduziert werden. Meteor hebt gezielt wichtige Datenpunkte hervor, minimiert Fehler und optimiert so Ihr gesamtes Review.
Jetzt registrieren

 

Welches Ziel verfolgt ihr als Data Science Team in der klinischen Forschung?

Daniel-Timon:

Wir entwickeln zwar KI-Lösungen und Software, aber bei all dem steht der Mensch für uns im Fokus. Wir entwickeln Software, die für möglichst viele Personen nutzbar ist. Ein Beispiel ist unsere KI-basierte Software Meteor, die im Datenmanagement und in der Pharmakovigilanz zum Einsatz kommt. Dabei werden Prozesse verbessert und so zum einen die Sicherheit der Patienten erhöht und zum anderen die Qualität der erhobenen Daten in der klinischen Studie verbessert. Die Lösung ist natürlich GAMP 5 validiert und konform mit relevanten Richtlinien der EMA. 

Ein weiteres Anliegen für uns ist die Nutzbarmachung von medizinischen Daten. Bei der Dokumentation von Patientendaten in Krankenhäusern und Arztpraxen kommen verschiedenste Softwaresysteme und Dateiformate zum Einsatz. Das erschwert es Erkenntnisse aus diesem Datenpool zu ziehen. Wir entwickeln projektbasiert Lösungen, um die unterschiedlichen Daten zusammenzuführen, aufzubereiten und berechtigten Nutzern zur Verfügung zu stellen. Das ermöglicht Ärzte- und Forschungsteams Analysen, die bis vor Kurzem noch undenkbar waren.

 

An welchen Projekten arbeitet ihr gerade und welche spezifischen Probleme versucht ihr zu lösen?

Paul:

Aktuell liegt ein Fokus auf der Verarbeitung von Textdaten. Hier haben wir verschiedene Lösungen entwickelt. Zum einen können potentiell fehlerhaft eingetragene Studiendaten automatisch erkannt werden. Die Lösung wird gerade in unser EDC-System integriert. Diese funktioniert folgendermaßen: Wenn Prüfärztinnen oder Prüfärzte Patientendaten im System erfassen, erhalten sie in Echtzeit Feedback darüber, ob die eingetragenen Daten fehlerbehaftet sind, bzw. ob sie in diesem Kontext erwartet werden. Dies ermöglicht es ihnen, eventuell auftretende Fehler unmittelbar zu korrigieren. Daten bereits im ersten Schritt so auf Qualität zu prüfen, verhindert vermeidbare Mehrarbeit in der Nachbereitung.

Zum anderen arbeiten wir an multimodalen Lösungen, welche die Erkennung von fehlerhaften Daten in Datenreviews mit Meteor ermöglichen. Dabei haben wir sowohl einen Ansatz entwickelt, der ein intuitives Erkunden der Daten durch den Nutzer ermöglicht, als auch einen Ansatz der, ähnlich wie eben beschrieben, fehlerhafte Daten automatisiert kennzeichnet. Beides spart unseren Datenmanagement und Pharmakovigilanz- Teams viel Routinearbeit.

Technologisch kommen hier übrigens verschiedene Modelle zur Textverarbeitung zum Tragen, unter anderem auch große Sprachmodelle, ähnlich zu ChatGPT.

 

Aber ChatGPT selbst nutzt ihr nicht für eure Anwendungen?

Paul:

Nein. Datenschutz ist bei uns oberstes Gebot. Wir nutzen allerdings die rasante Entwicklung der Open-Source Community und haben mittlerweile eigene große Sprachmodelle im Einsatz. Das ist 100% sicher, da die Modelle von uns selbst gehostet werden und dadurch die Daten niemals unsere IT-Infrastruktur verlassen.

Diese Entwicklung ermöglicht uns den Einsatz dieser revolutionären Technologie auch in anderen Bereichen. Allerdings ist das Training solcher Modelle sehr aufwendig und der Einsatz erfordert aktuell noch kostspielige Hardware.

 

Erzählt uns noch ein wenig darüber, wie eine KI entwickelt wird. Wo kommen zum Beispiel die Daten her, mit denen die Algorithmen trainiert werden?

Daniel-Timon:

Patientendaten erfordern einen besonderen Schutz, deshalb arbeiten wir nach den höchsten Datenschutzstandards. Personenbezogene Daten können wir nur verarbeiten, wenn die schriftliche Einwilligung der Patienten vorliegt und der Sponsor, also der Auftraggeber des Studienprojekts, es genehmigt. Wir beobachten immer mehr, dass innovative Sponsoren an der Entwicklung von KI-Lösungen teilhaben möchten und uns gezielt für solche Technologien anfragen. Dann werden von Anfang an zwischen allen Parteien die notwendigen Konzepte für den Datenschutz berücksichtigt. 

Die Art der Daten, mit denen wir arbeiten, hängt dann stark vom jeweiligen Projekt ab. Das können Studiendaten, Laborwerte, biometrische Daten und zunehmend auch individuelle genomische Daten wie Genomics und Metabolomics sein. In den letzten Jahren tragen auch von Patienten generierte Daten, etwa von Sensoren wie Smartwatches, die Sauerstoffsättigung, Puls und Schritte messen, zur Datengrundlage bei. Bei Versorgungsdaten, insbesondere in Krankenhäusern, gibt es leider oft technische Hürden. Hier müssen verschiedene Datenquellen integriert und unstrukturierte Daten in eine verwertbare Form gebracht werden. Dazu gehört auch hin und wieder handgeschriebene Arztbriefe in maschinenlesbare Daten umzuwandeln.

Zum Glück gibt es gelegentlich auch frei verfügbare Datensätze, die sich für manche Fragestellungen eignen. Dann können wir direkt loslegen und müssen nicht erst mit Patienten und Sponsoren individuell die rechtlichen Rahmenbedingungen ausarbeiten.  

 

Wie werden Modelle dann üblicherweise trainiert und validiert?

Paul:

Training und Validierung von KI-Modellen erfolgt in der Regel nach einem Standardverfahren, bei dem die Daten in einen Trainingsdatensatz und einen Testdatensatz aufgeteilt werden. Auf dem Trainingsdatensatz findet das Lernen des KI-Modells statt, auf dem Testdatensatz die Validierung. Dieses Vorgehen stellt sicher, dass ein Modell auf Daten getestet wird, die sich von den Trainingsdaten unterscheiden. Wie in einer Klausur: Gelernt wird mit Übungsaufgaben, also Trainingsdaten, die Klausur besteht aber aus neuen Übungsaufgaben, Testdaten. So wird erkannt, ob KI-Modelle Trainingsdaten nur auswendig gelernt haben oder die zugrunde liegenden Mechanismen verstanden haben.

Bei der Validierung wird anschließend getestet, wie gut das Modell den Testdatensatz abbildet. Das gibt in der Regel ein gutes Bild über die wirkliche Performance ab. Des Weiteren wird die Performance auf neuen Daten im Live-Betrieb überwacht. So kann man frühzeitig erkennen, wenn die Leistungsfähigkeit des Modells über die Zeit abnimmt.  

 

Sicherlich braucht es medizinische Fachkenntnisse, um eine KI für den Einsatz in klinischen Studien zu entwickeln. Bringt ihr diese Expertise mit?

Daniel-Timon:

Wir selbst sind zwar Naturwissenschaftler, aber keine medizinischen Experten. Umso wichtiger ist es aber, dass wir eng mit Fachleuten zusammenarbeiten, etwa mit unseren Kolleginnen und Kollegen aus dem Datenmanagement und der Pharmakovigilanz, welche genau die Anforderungen, zu erwartenden Ergebnisse und übliche Herausforderungen der einzelnen Indikationen kennen. So helfen sie uns etwa bei der Annotation spezieller Entitäten, wie Nebenwirkungen, in Texten. Diese Zusammenarbeit ist entscheidend, um hochwertige Trainingsdaten für KI-Modelle zu erhalten und die Ergebnisse zu validieren. Je nach Kontext ist auch eine Zusammenarbeit direkt mit Ärzten oder Studienassistenten hilfreich.

 

Danke für den kleinen Einblick in eure Arbeit. Noch eine Frage zum Abschluss: Wie sieht eurer Meinung nach die Zukunft von Data Science und KI in der klinischen Forschung aus?

Paul:

Voraussichtlich wird die Anzahl der verwendeten KI-Systeme stark zunehmen. Insbesondere die rasante Entwicklung bei großen Sprachmodellen wie ChatGPT wird aus meiner Sicht dazu beitragen. Bezüglich der Bauart erwarte ich einen hohen Anteil hybrider Mensch-KI Systeme. Das sehe ich vor allem darin begründet, dass die beiden Akteure Mensch und KI ihre Schwächen gegenseitig ausgleichen können. Wir werden allerdings auch vermehrt autonom agierende KI-Systeme sehen.

Vor allem im Bereich der klinischen Forschung und anderen Hochrisikobereichen müssen diese Systeme vertrauenswürdig sein – fair, kontrollierbar, transparent, verlässlich und sicher. Der regulatorische Rahmen wird aktuell ausgearbeitet. Das stellt hohe Anforderungen an Prüfbehörden und KI-Entwickler dar, ist aber notwendig. Die resultierenden Systeme werden uns in vielen Bereichen tolle Chancen bieten und neue Entwicklungen ermöglichen. 

 

Daniel-Timon:

Die Zukunft von Data Science und KI in der klinischen Forschung sieht äußerst vielversprechend aus. Derzeit engagieren sich praktisch alle größeren Unternehmen in Initiativen zur Nutzung von KI in der klinischen Forschung. Das liegt daran, dass immer mehr Daten verfügbar sind und neue Technologien, wie generative Modelle, die Entwicklung vorantreiben.

Mittelfristig sehe ich auch Mensch und Maschine als ein Team, in dem jeder seine speziellen Fähigkeiten mitbringt. Diese teilautonomen Systeme können so gestaltet werden, dass der Mensch das letzte Wort bei Entscheidungen hat. Das ist bei risikoreichen Fällen wichtig, nicht zuletzt bei der Frage nach der Verantwortung.

Insgesamt freue ich mich auf die Vorteile, die diese Entwicklung in Sachen Effizienzsteigerung, Patientensicherheit und Datenqualität mit sich bringt. Durch eine bessere Nutzung von Daten aus der medizinischen Versorgung, zum Beispiel Real World Data, wird KI in Zukunft die Medikamentenentwicklung beschleunigen. So können lebensrettende Medikamente schneller die Marktzulassung erhalten und stehen früher den Patienten zur Verfügung.