Missing Data in klinischer Forschung: Wie Imputation fehlende Daten ersetzt
Erstellt am: 22.07.2021
Fehlende Werte in klinischen Studien sind keine Seltenheit, die Gründe für ihr Auftreten unterschiedlich und teilweise unvermeidlich. So unterstützt Imputation, verlässliche statistische Resultate zu erhalten.
Was ist Imputation?
Bei einer Imputation werden fehlende Werte durch die zufällige Ziehung aus einem Imputationsmodell aufgefüllt und anschließend an ein Analysemodell übergeben. Daher ist das Ziel von Imputation nicht, Werte zu generieren, die den tatsächlichen Beobachtungen ähneln. Stattdessen sollen sich die imputierten Werte innerhalb der Analysen so verhalten wie die beobachteten Werte.
Dennoch führt jede Imputation zu einer Datenverzerrung, da niemand weiß, wie tatsächliche Daten ausgesehen hätten. Das Ziel ist somit, den wirklichen Werten so nah wie möglich zu kommen, indem eine Datenverzerrung mithilfe der richtigen Methode reduziert wird.
Neues Whitepaper
Verschiedene Arten von missing data
Zur Prüfung der Sinnhaftigkeit und für die Auswahl der geeigneten Methode wird zunächst nach der Art der fehlenden Werte (missing data) gefragt. Allgemein unterscheidet man dabei in drei Arten dieser fehlenden Werte:
-
Missing completely at random (MCAR): Eine Variable ist “vollständig zufällig fehlend“, wenn die Wahrscheinlichkeit des Fehlens ihres Inhalts weder von der Variablen selbst noch von anderen, beobachteten Variablen abhängt. Ein Beispiel hierfür wären auf dem Postweg verloren gegangene Fragebögen.
-
Missing at random (MAR): Eine Variable ist „zufällig fehlend“, wenn die Wahrscheinlichkeit des Fehlens ihres Inhalts zwar nicht von der Variablen selbst, jedoch von anderen erhobenen Variablen abhängig ist. Ist es für einen männlichen Befragten etwa weniger wahrscheinlich in einer Umfrage Fragen zum Thema Depression zu beantworten, werden fehlende Werte der Variable „Schweregrad der Depression“ mit der Variablen „Geschlecht“ in Zusammenhang stehen. Innerhalb der nach Geschlecht aufgeteilten Populationen gibt es allerdings keinen Zusammenhang zwischen dem Fehlen einer Angabe zum Schweregrad der Depression und dem Schweregrad der Depression selbst.
-
Missing not at random (MNAR): Eine Variable ist „nicht zufällig fehlend“, wenn die Wahrscheinlichkeit des Fehlens ihres Inhalts von der Variablen selbst abhängig ist. Ein Beispiel hierfür ist die Angabe des Einkommens. Je höher das Einkommen eines Befragten, desto unwahrscheinlicher ist es, dass er die Frage danach überhaupt beantwortet.
Vor- und Nachteile der Imputations-Methoden
Als eines der einfachsten Beispiele gilt die Imputation durch Mittelwerte. Bei kleinen Datensätzen mit numerischen Variablen kann dies funktionieren, da der Mittelwert nicht verfälscht wird. Für kodierte kategoriale Variablen ergeben sich allerdings kaum verwertbare Ergebnisse. In solchen Fällen greift eine Imputation durch die am häufigsten auftretenden Werte deutlich besser. Gleichzeitig besteht jedoch auch die Gefahr einer größeren Datenverzerrung.
Moderne Imputationsverfahren sind geeigneter, da Sie weitere Faktoren berücksichtigen, obgleich sie dadurch komplexer werden. So kann eine Imputation durch k-NN (Nächste Nachbarn) akkurater ausfallen als die beiden zuvor genannten Methoden. Dabei werden jeweils die k nächsten Nachbarn einer fehlenden Beobachtung, basierend auf weiteren, vorhandenen Variablen, für eine Imputation einbezogen.
Die Herausforderung ist die Festlegung des Parameters k. Ein niedriger Wert für k bestärkt ein sogenanntes Rauschen in den Daten (Unsauberkeiten), wodurch die Ergebnisse weniger generalisierbar werden. Ein zu hohes k führt jedoch dazu, dass lokale Effekte verschwimmen. Auch dies ist problematisch, denn diese Effekte versucht das Verfahren eindeutig zu identifizieren.
Zu weiteren Imputationsverfahren von größerer Komplexität gehören außerdem:
- Imputation durch Regression
-
Multiple Imputation (übergeordnet)
-
Auf Deep Learning und/oder Machine Learning basierende Methoden
Je komplexer ein Verfahren ist, desto schwieriger sind Vor- und Nachteile vergleichbar, da ein tieferer Einstieg in die Thematik vorausgesetzt wird. Aus diesem Grund gilt die Komplexität als weiterer wichtiger Indikator bei der Suche nach der besten Imputation.
Doch auch die Komplexität eines Verfahrens zur Imputation bietet sowohl Vor- als auch Nachteile. Obwohl Methoden wie MICE (Multivariate Imputation by Chained Equations) bei entsprechender Spezifikation gute Arbeit leisten, können sie je nach Datenlage und den darauffolgenden Analysen unverhältnismäßig im Aufwand sein. Zeit und Ressourcen werden eingespart, indem ein weniger komplexes Verfahren mit vernachlässigbarer Leistungsreduzierung gewählt wird.
Wie gelingt Imputation - das Fazit
Beim Prozess der Imputation müssen statistische Expertise und Erfahrungswerte zu den jeweils zu imputierenden Daten zusammengeführt werden. Eine enge Zusammenarbeit zwischen Statistikern und Fachexperten ist notwendig, um zuverlässige Ergebnisse aus unvollständigen Datensätzen zu erhalten. Insbesondere für riesige Datenbasen, Register oder Informationen, die zunächst ohne ein spezielles Ziel zusammengetragen wurden, kann Imputation als hypothesen-generierendes Werkzeug einen hochgradigen Mehrwert bieten.