Die Spreu vom Weizen trennen: Die Herausforderung bei der Identifikation korrekter Daten

Im Zeitalter der dritten industriellen Revolution - auch bekannt als das Zeitalter der digitalen Revolution – steht der Verlierer bereits jetzt fest. Wer Daten getreu dem Motto Quantität vor Qualität sammelt, wird bei dem Wettrennen des 21. Jahrhunderts falsche Entscheidungen treffen und als Verlierer dastehen. Ausgangsbasis dieser These ist die Überlegung, dass die Qualität der analysierten Daten Auswirkung auf die Genauigkeit der Analysen nimmt.

Das Gut des 21. Jahrhunderts

Ein entscheidendes Charakteristikum des Zeitalters der digitalen Revolution ist die immerwährende Verfügbarkeit von Informationen sowie die Möglichkeit, zugängliche Informationen kontinuierlich auszuweiten. Die täglich erzeugten Daten sind Ausgangsbasis für weitreichende Analysen und beeinflussen unser Alltagsleben:

Echtzeitinformationen über den Verkehr, smartes Wohnen und intelligente Vorhersagen sind schon längst unsere stetigen Begleiter. Big Data birgt unter anderem das Potential, entscheidende Fortschritte im Gesundheitswesen zu erzielen, effizientere Verkehrsplanung zu ermöglichen und gewinnoptimierte Entscheidungen mittels Business Intelligence zu treffen.

Dieses Potential fußt auf einer Datenmenge, die unvorstellbar groß ist. Laut einer IDC-Studie wird sich zwischen 2018 und 2025 das weltweite Datenvolumen von 33 auf 175 Zettabyte mehr als verfünffachen. Die Menge an Daten, welche wir tagtäglich erzeugen, lässt sich bildlich verdeutlichen: würden wir diese Datenvolumen auf üblichen Blu-ray Discs speichern und diese Discs anschließend stapeln, so würden wir einen Turm erhalten, welcher jedes Bauwerk dieser Welt bei weitem überragt.

Die bisher bestehenden Daten wurden - laut einer Studie des Festplattenherstellers Seagate und des IT-Marktbeobachtungshauses IDC - überwiegend von Privatnutzern generiert. Ein Großteil dieser Daten ist unstrukturiert und wird nicht ausgewertet. Analysten prognostizieren jedoch, dass zukünftig die Mehrheit der neuen Daten durch Unternehmen erzeugt und verwendet werden.

Hohe Datenqualität als Voraussetzung für Künstliche Intelligenz

Diese Unternehmen hoffen unter anderem darauf, durch die gezielte Analyse von Daten Entscheidungen ihrer Kunden besser vorherzusagen und damit entscheide Vorteile zu generieren. Um Daten jedoch analysieren zu können und auf Methoden Künstlicher Intelligenz zurückzugreifen, müssen Daten zunächst erhoben, gegebenenfalls bearbeitet sowie aufgefrischt und bereitgestellt werden. Diese Prozesse bergen jedoch die Gefahr, dass die zu analysierenden Daten Mängel aufweisen und somit die gewonnen Analyseergebnisse zu fehlerhaften Rückschlüssen führen können.

Diese Überlegung hat zum Konzept der Datenqualität geführt. Die Idee fußt auf der Annahme, dass die Qualität der zu analysierenden Daten Rückschlüsse auf die Genauigkeit der gewonnen Analysen gibt. Volker Gerhard Würthele definiert in seiner Arbeit den Begriff der Datenqualität als ein mehrdimensionales Maß für die Eignung von Daten, den an ihrer Erfassung / Generierung gebunden Zweck zu erfüllen.

Datenqualität ist demnach ein subjektives und variables Maß, welches von den jeweiligen aktuellen Bedürfnissen und Anforderungen, die an die Daten gestellt werden, abhängt. Eine mögliche Dimension zur Messung von Datenqualität ist die Korrektheit. Unter Korrektheit versteht man in diesem Kontext die Fähigkeit der Daten, die Realität widerzuspiegeln.

Das Messen von Datenkorrektheit führt jedoch in der Praxis zu großen Herausforderungen: wie soll - ohne die individuelle Prüfung eines Datensatzes - entschieden werden, ob die Daten die Realität korrekt modellieren?

Logische Implikationen als Grundlage für Validierungsprüfung nutzen

Ein möglicher Ansatz ist die Formulierung von Validierungsregeln, welche verwendet werden können, um die logische Korrektheit eines Datensatzes zu überprüfen. Mit Hilfe solcher Validierungsregeln können Inkonsistenzen identifiziert und die Qualität der zugrunde liegenden Daten erhöht werden. In der Praxis hat es sich jedoch als schwierig herausgestellt, gültige Abhängigkeiten zu identifizieren, welche anschließend zur Messung der Datenkorrektheit verwendet werden konnten. Durch die willkürliche Auswahl von - meist offensichtlichen - Abhängigkeiten, konnten in der Praxis keine nennenswerten Fehler identifiziert werden.

Die Theorie von konditionellen funktionellen Abhängigkeiten erlaubt es, Validierungsregeln zu formulieren, welche funktionell von ihren Input-Parametern abhängen und somit komplexere Abhängigkeiten modellieren. Professor Wenfei Fan veröffentlichte in seinen Arbeit einen Algorithmus, welcher es ermöglicht, innerhalb einer gegeben Menge von Datensätze alle konditionell funktionellen Abhängigkeiten zu identifizieren und auf diese Weise für den Menschen nicht zwangsläufig erkennbaren Zusammenhänge zu formulieren. Diese Form der Validierung garantiert Daten von hohem Korrektheitswert und ermöglicht qualitativ hochwertige Auswertungen.

Anwendung bei der Identifikation von Korrektheitsfehlern

Der beschriebene Ansatz kann in der Praxis genutzt werden, um Validierungsregeln zu identifizieren und automatisiert den Datenhaushalt auf die Erfüllbarkeit dieser Regeln zu prüfen. Der von der movisco AG entwickelte DQM-Prozess lässt sich als Kreislauf formulieren und sieht die Iteration der folgenden Schritte vor:

Auswahl von Daten, welche als korrekt angesehen werden und als Datenbasis zur Identifikation von Validierungsregeln verwendet wird.
Identifikation der konditionell funktionellen Abhängigkeiten innerhalb der ausgewählten Datenbasis.
Optional: Manuelle / Automatisierte Auswahl von Validierungsregeln.
Prüfung des gesamten Datenbestands auf die Erfüllbarkeit der identifizierten Prüfregeln.
Korrektur / Validierung der fehlerhaften Datensätze.

Ihr Ansprechpartner bei Fragen rund um Datenqualität

Die movisco AG ist Ihr Ansprechpartner bei allen Fragen rund um das Thema Datenqualitätsmanagement (DQM). Mit unseren Datenqualitätsmaßnahmen optimieren Sie Ihren Datenhaushalt und schaffen mit korrekten Informationen die Basis für ein effizientes Reporting und zielführende Datenauswertungen.

Haben Sie in Ihren Daten bereits Fehler gefunden, welche Sie zu fehlerhaften Rückschlüssen verleitet haben? Teilen Sie gerne Ihre Erfahrung in einem Kommentar mit uns.

Weitere Beiträge

Den Robotern gehört der Freitag weiterlesen
Data is the new Oil weiterlesen

Veröffentlichungen und Referenzen zu diesem Beitrag

Aufbau des Datenhaushalts für die Datenqualitätsanalyse eines Kreditinstitutes weiterlesen
Datenqualität in Banken – der Schlüssel für mehr Compliance weiterlesen

Über den Autor

Chiara Mazziotta

Chiara Mazziotta ist Consultant bei der movisco AG im Bereich Finance und IT Consulting. Sie besitzt einen B.Sc. und einen M.Sc. in Mathematik mit dem Schwerpunkt Logik und numerische Simulationen. Zusätzlich weist Chiara Mazziotta eine Zertifizierung in Projektmanagement (Prince II) sowie Softwaretesting (ISTQB) und Erfahrungen in SAP Modulen vor. Die Stärke von Chiara Mazziotta ist ihr ausgeprägtes analytisches Denken sowie ihre schnelle Auffassungsgabe mit Hands-on-Mentalität.