Im Zeitalter der dritten industriellen Revolution - auch bekannt als das Zeitalter der digitalen Revolution – steht der Verlierer bereits jetzt fest. Wer Daten getreu dem Motto Quantität vor Qualität sammelt, wird bei dem Wettrennen des 21. Jahrhunderts falsche Entscheidungen treffen und als Verlierer dastehen. Ausgangsbasis dieser These ist die Überlegung, dass die Qualität der analysierten Daten Auswirkung auf die Genauigkeit der Analysen nimmt.
Ein entscheidendes Charakteristikum des Zeitalters der digitalen Revolution ist die immerwährende Verfügbarkeit von Informationen sowie die Möglichkeit, zugängliche Informationen kontinuierlich auszuweiten. Die täglich erzeugten Daten sind Ausgangsbasis für weitreichende Analysen und beeinflussen unser Alltagsleben:
Die bisher bestehenden Daten wurden - laut einer Studie des Festplattenherstellers Seagate und des IT-Marktbeobachtungshauses IDC - überwiegend von Privatnutzern generiert. Ein Großteil dieser Daten ist unstrukturiert und wird nicht ausgewertet. Analysten prognostizieren jedoch, dass zukünftig die Mehrheit der neuen Daten durch Unternehmen erzeugt und verwendet werden.
Diese Unternehmen hoffen unter anderem darauf, durch die gezielte Analyse von Daten Entscheidungen ihrer Kunden besser vorherzusagen und damit entscheide Vorteile zu generieren. Um Daten jedoch analysieren zu können und auf Methoden Künstlicher Intelligenz zurückzugreifen, müssen Daten zunächst erhoben, gegebenenfalls bearbeitet sowie aufgefrischt und bereitgestellt werden. Diese Prozesse bergen jedoch die Gefahr, dass die zu analysierenden Daten Mängel aufweisen und somit die gewonnen Analyseergebnisse zu fehlerhaften Rückschlüssen führen können.
Diese Überlegung hat zum Konzept der Datenqualität geführt. Die Idee fußt auf der Annahme, dass die Qualität der zu analysierenden Daten Rückschlüsse auf die Genauigkeit der gewonnen Analysen gibt. Volker Gerhard Würthele definiert in seiner Arbeit den Begriff der Datenqualität als ein mehrdimensionales Maß für die Eignung von Daten, den an ihrer Erfassung / Generierung gebunden Zweck zu erfüllen.
Datenqualität ist demnach ein subjektives und variables Maß, welches von den jeweiligen aktuellen Bedürfnissen und Anforderungen, die an die Daten gestellt werden, abhängt. Eine mögliche Dimension zur Messung von Datenqualität ist die Korrektheit. Unter Korrektheit versteht man in diesem Kontext die Fähigkeit der Daten, die Realität widerzuspiegeln.
Das Messen von Datenkorrektheit führt jedoch in der Praxis zu großen Herausforderungen: wie soll - ohne die individuelle Prüfung eines Datensatzes - entschieden werden, ob die Daten die Realität korrekt modellieren?
Ein möglicher Ansatz ist die Formulierung von Validierungsregeln, welche verwendet werden können, um die logische Korrektheit eines Datensatzes zu überprüfen. Mit Hilfe solcher Validierungsregeln können Inkonsistenzen identifiziert und die Qualität der zugrunde liegenden Daten erhöht werden. In der Praxis hat es sich jedoch als schwierig herausgestellt, gültige Abhängigkeiten zu identifizieren, welche anschließend zur Messung der Datenkorrektheit verwendet werden konnten. Durch die willkürliche Auswahl von - meist offensichtlichen - Abhängigkeiten, konnten in der Praxis keine nennenswerten Fehler identifiziert werden.
Die Theorie von konditionellen funktionellen Abhängigkeiten erlaubt es, Validierungsregeln zu formulieren, welche funktionell von ihren Input-Parametern abhängen und somit komplexere Abhängigkeiten modellieren. Professor Wenfei Fan veröffentlichte in seinen Arbeit einen Algorithmus, welcher es ermöglicht, innerhalb einer gegeben Menge von Datensätze alle konditionell funktionellen Abhängigkeiten zu identifizieren und auf diese Weise für den Menschen nicht zwangsläufig erkennbaren Zusammenhänge zu formulieren. Diese Form der Validierung garantiert Daten von hohem Korrektheitswert und ermöglicht qualitativ hochwertige Auswertungen.
Der beschriebene Ansatz kann in der Praxis genutzt werden, um Validierungsregeln zu identifizieren und automatisiert den Datenhaushalt auf die Erfüllbarkeit dieser Regeln zu prüfen. Der von der movisco AG entwickelte DQM-Prozess lässt sich als Kreislauf formulieren und sieht die Iteration der folgenden Schritte vor:
Die movisco AG ist Ihr Ansprechpartner bei allen Fragen rund um das Thema Datenqualitätsmanagement (DQM). Mit unseren Datenqualitätsmaßnahmen optimieren Sie Ihren Datenhaushalt und schaffen mit korrekten Informationen die Basis für ein effizientes Reporting und zielführende Datenauswertungen.
Haben Sie in Ihren Daten bereits Fehler gefunden, welche Sie zu fehlerhaften Rückschlüssen verleitet haben? Teilen Sie gerne Ihre Erfahrung in einem Kommentar mit uns.
Data is the new Oil weiterlesen
Wir freuen uns über Ihre direkte Kontaktaufnahme!