Neuer Ansatz zur Imputation fehlender Werte


Fehlende Werte (Missing Data) treten mit zunehmender Häufigkeit in nahezu allen Marktforschungsprojekten auf. Der Wunsch nach mobilfähigen immer kürzeren Befragungen oder auch die Integration von Daten aus unterschiedlichen Quellen führen zu teilweise stark fragmentierten Daten mit einer hohen Dichte an Missings. Abhängig von der jeweiligen Zielsetzung der Studie, kann dies zu größeren Problemen führen, so dass es notwendig wird, fehlende Angaben durch geeignete Werte „aufzufüllen“ (sog. Imputation).

Imputation fehlender Werte

Es existiert eine Reihe an Verfahren zur Imputation von fehlenden Angaben. Die einfachsten Ansätze sind statisch (z.B. Ersetzung durch Mittelwert, Median, Modus usw.) und technisch quasi immer anwendbar. Die Güte der Ersetzung ist dabei aber stark limitiert, so dass wir generell von der Anwendung solcher Verfahren abraten. Deutlich bessere Ergebnisse liefern komplexere Imputationsverfahren, die nicht nur die Variable, in der fehlende Werte ersetzt werden sollen, berücksichtigt – sondern auch andere, potenziell informierende Variablen. Derartige Verfahren (z.B. EM, Nearest Neighbor Imputation, Multiple Imputation) haben aber zentrale Nachteile:
  • So stellen auch diese Verfahren nur auf jeweils ein Gütekriterium der Imputation ab, d.h. sie versuchen bspw. auf Einzelfallebene möglichst gute Ersetzungen zu finden ohne dabei aber Verteilungen oder auch die Zusammenhänge der Variablengesamtheit im Blick zu halten. Dies kann dazu führen, dass bspw. Korrelationsstrukturen zwischen Variablen nach der Imputation fehlender Werte z.T. vollkommen anders aussehen.
  • Auch liefern sie immer nur eine „beste“ Imputation und zeigen nicht verschiedene Lösungsoptionen auf.
  • Die Anwendung solcher Verfahren ist bisweilen recht aufwändig, da manuell die unterschiedlichen Skalenniveaus (metrische Variablen wie Alter, Einkommen erfordern natürlich eine andere Handhabung als z.B. Geschlecht, Wohnort usw.) berücksichtigt und die Daten entsprechend aufbereitet werden müssen.
  • Ein weiterer Schwachpunkt ist, dass viele dieser Verfahren keine umfangreichen Statistiken bereitstellen die eine adäquate Evaluation der Güte der Imputation erlauben (z.B. Vergleich von Trefferraten, Abweichungen bei ungesehenen Testdaten).

Unser neuer Ansatz

Aufgrund dieser Limitationen wurde in der Kantar Analytics Practice ein umfassender Framework zur Imputation fehlender Angaben entwickelt (siehe nachfolgende Abbildung). Dieser neue Ansatz ist den bisherigen Verfahren überlegen, da er
  • durch eine Automatisierung einzelner Prozessschritte (u.a. die Handhabung verschiedener Variablentypen ) weniger Aufwand und Kosten verursacht,
  • flexibler ist, da umfangreichere Validierungs- und Fitmetriken bereitgestellt werden und
  • zu besseren Ergebnissen führt, da der Forscher unter Berücksichtigung der jeweiligen Zielsetzung einer Studie aus einer priorisierten Liste an Imputationsvorschlägen die beste Lösung auswählen kann.
Im Kern dieses Ansatzes stehen Prognoseverfahren aus dem Bereich Data Science, Deep Learning, die zwar noch vergleichsweise neu sind, aber schon im Rahmen einiger Data Science Competitions als Gewinnerverfahren hervorstachen und zudem sehr flexibel, d.h. z.B. unabhängig von Variablentypen, sind.
In einer ersten Prozessrunde werden mittels mehr als 100 unterschiedlich konzipierter Modelle Prognosen für fehlende Angaben erstellt – wobei der Datensatz immer in eine Trainingsmenge zur Modellschätzung und eine Testmenge zur Validierung der Ergebnisse unterteilt wird. Das bietet den großen Vorteil, dass die jeweils ausgewählten Modelle nicht nur auf die gesehenen Daten der vorliegenden Studie abgestellt sind und damit mitunter die gegebenen Daten auswendig lernen (sog. Overfitting), sondern dass die Modelle auch verallgemeinerbar sind und problemlos auf ungesehene Daten angewendet werden können.
In einer zweiten Runde werden die Prognosen dann verschiedenen Transformation (ADJ) unterzogen um z.B. zentrale Verteilungen, Varianzen aber auch minimale und maximale Werte aufrechtzuerhalten und „unplausible“ Werte zu vermeiden. Im Kern resultieren dann mehr als 500 unterschiedliche Imputationsmodelle.
In einer abschließenden Bewertungsrunde (EVAL) werden alle Modelle anhand eines umfangreichen Sets an Bewertungskriterien (Hitrates, Korrelationen, Verteilungen, Abweichung usw.) evaluiert und nach Güte entsprechend sortiert. Im Ergebnis steht dem Forscher dann eine große Zahl an Imputationsmodellen zur Verfügung, aus denen er anhand der jeweils besonders wichtigen Bewertungsmetriken das Beste auswählen kann.
Diesen Gesamtansatz haben wir in 2018 bereits mehrfach erfolgreich eingesetzt und konnten u.a. im Rahmen einer großen Studie aus dem Bereich der Sozialforschung eine Ergebnisverbesserung bei deutlich reduziertem Aufwand realisieren.
Ansprechpartner:
Dr. Daniel Mühlhaus +49 (0)89 5600-1048 daniel.muehlhaus@kantar.com
Dr. Robert Hartl +49 (0)89 5600-1320 robert.hartl@kantar.com

Zurück zur Übersicht

5. März 2019

Analytics Practice

Data Science, Deep Learning, Imputation, Missing Data

weitere Artikel der Analytics Practice