Seit der EU-weiten Einführung der Datenschutz-Grundverordnung (DSGVO) im Jahr 2018 sind Unternehmen und somit auch Banken innerhalb der EU dazu verpflichtet, den neuen Datenschutzvorgaben Folge zu leisten. Die DSGVO schreibt vor, dass personenbezogene Daten nach einer festgelegten Zeit nicht weiter aufbewahrt werden dürfen. Der Schutz dieser Daten ist ein hohes Gut, jedoch geht damit einher, dass viele wertvolle Datensätze, die unter anderem personenbezogene Daten beinhalten, von dieser Regelung betroffen sind.
Das Löschen der Datensätze ist die einfachste Lösung, um den Bestimmungen der DSGVO gerecht zu werden. Wenn allerdings eine fortlaufende Verfügbarkeit der betroffenen Datensätze gewünscht oder sogar notwendig ist, kann Datenanonymisierung Abhilfe schaffen. Insbesondere im Data Warehouse gibt es eine Vielzahl an Szenarien, in denen die Anonymisierung von Datensätzen Vorteile mit sich bringt und somit der reinen Löschung der Datensätze vorzuziehen ist.
Dieser movisco-Blogbeitrag soll einen Einblick in die Anwendungsmöglichkeiten der Datenanonymisierung im Data Warehousing-Umfeld geben. Zuerst werfen wir einen Blick auf die Gesetzeslage, um einordnen zu können, welche gesetzlichen Aspekte beachtet werden müssen. Im Anschluss soll es dann um Datenanonymisierung im Allgemeinen gehen. Danach wird die Anwendung der Techniken zur Datenanonymisierung im Data Warehouse im Detail untersucht.
Die Datenschutz-Grundverordnung (DSGVO) oder General Data Protection Regulation (GDPR) ist eine Verordnung der Europäischen Union, die das Ziel hat, innerhalb der EU einheitliche Regeln für die Verarbeitung personenbezogener Daten zu schaffen. Sie ist am 25. Mai 2018 in Kraft getreten und gilt unmittelbar in allen Mitgliedsstaaten der Europäischen Union. Die DSGVO hat darüber hinaus Vorrang vor nationalen Datenschutz-Gesetzen wie etwa dem Bundesdatenschutzgesetz (BDSG) in Deutschland.
Bis zum Inkrafttreten der DSGVO regelte in Deutschland das BDSG den Schutz personenbezogener Daten. Im Zuge der Einführung der DSGVO wurde das BDSG vollständig neu gefasst. Die Neufassung des BDSG konkretisiert und ergänzt Datenschutzvorgaben der DSGVO. Dies ist immer der Fall, wenn im Gesetzestext der DSGVO eine sogenannte Öffnungsklausel vorliegt.
In Art. 5 DSGVO werden die Grundsätze für die Verarbeitung personenbezogener Daten festgehalten:
Wie wir später sehen werden, sind bei der Anwendung im Data Warehouse insbesondere der Grundsatz der Zweckbindung und der Grundsatz der Speicherbegrenzung relevant.
Verstöße gegen die DSGVO können hohe Bußgelder und Strafen mit sich ziehen. So kann bei besonders gravierenden Verstößen ein Bußgeld in Höhe von 20 Mio. Euro oder 4% des weltweit erzielten Jahresumsatzes fällig werden. Darüber hinaus kann die Missachtung des Schutzes sensibler, personenbezogener Daten auch zu einem erheblichen Image- und Vertrauensverlust für das Unternehmen durch Partner und Kunden führen.
Um Datenschutz-Verstöße zu vermeiden, müssen personenbezogene Daten fristgerecht gelöscht werden. Die “triviale” Lösung ist es, den entsprechenden Datensatz komplett zu löschen. Hier kommt die Datenanonymisierung ins Spiel.
Bei der Datenanonymisierung handelt es sich um den Prozess, personenbezogene Daten so zu verändern, dass sie nicht mehr oder nur mit unverhältnismäßig großem Aufwand einer bestimmten Person zugeordnet werden können. Das Hauptziel besteht darin, die Identifizierung von Einzelpersonen aus den Daten zu verhindern, während die Daten weiterhin für Analysezwecke oder andere Geschäftsprozesse genutzt werden können. Die Wahl der Anonymisierungs-Methode hängt dabei maßgeblich von der geplanten weiteren Verwendung der Daten ab.
Ausschlaggebend ist, dass anonymisierte Datensätze laut Erwägungsgrund 26 DSGVO nicht mehr den Regeln der DSGVO unterliegen.
Die Datenanonymisierung ist jedoch von der Datenpseudonymisierung zu unterscheiden. Bei der Pseudonymisierung von Daten handelt es sich gemäß Art. 4 Abs. 5 DSGVO um die “Verarbeitung personenbezogener Daten in einer Weise, dass die personenbezogenen Daten ohne Hinzuziehung zusätzlicher Informationen nicht mehr einer spezifischen betroffenen Person zugeordnet werden können, sofern diese zusätzlichen Informationen gesondert aufbewahrt werden […]”.
Im Gegensatz zur Datenanonymisierung liegt also bei der Datenpseudonymisierung immer ein Mapping vor, anhand dessen man die betroffenen Personen mithilfe der zugewiesenen Pseudonyme zurückverfolgen kann. Sofern gewährleistet wird, dass die Mapping-Informationen angemessen aufbewahrt werden, kann das Risiko für die betroffenen Personen im Falle eines Datenlecks gesenkt werden (s. Erwägungsgrund 28 DSGVO).
Interessanterweise müssen pseudonymisierte Daten gemäß Erwägungsgrund 26 DSGVO “als Informationen über eine identifizierbare natürliche Person betrachtet werden”, wodurch die pseudonymisierten Datensätze im Gegensatz zu anonymisierten Daten grundsätzlich der DSGVO unterliegen.
Die Rechtslage ist jedoch bei pseudonymisierten Daten deutlich komplexer als bei der Verarbeitung anonymisierter Daten, wie ein Urteil des Europäischen Gerichtshofes aus dem Jahr 2023 zeigt. Demnach entscheiden viele Einzelheiten, wie beispielsweise die “Perspektive” des Empfängers, ob die Daten rechtlich gesehen anonymisiert oder nur pseudonymisiert sind.
Es gibt verschiedene Methoden, die eine Anonymisierung oder Pseudonymisierung der Datensätze ermöglichen. Die Wahl der richtigen Methode hängt dabei insbesondere vom Nutzungskontext der anonymisierten Datensätze ab. Datensätze für Analysezwecke oder fürs Reporting erfordern beispielsweise eine komplexere Anonymisierungsmethodik als Daten, die lediglich archiviert werden sollen. Einige der gängigen Methoden sind unter anderem:
Die möglichen Anwendungsszenarien für den Einsatz von Datenanonymisierung und Datenpseudonymisierung im Data Warehouse sind vielfältig, da personenbezogene Daten in einer Vielzahl an geschäftlichen Prozessen erhoben und später in einem Data Warehouse, wie etwa SAP BW, persistiert werden. Im Folgenden werden drei mögliche alltägliche Anwendungsfälle kurz vorgestellt.
Die Daten, die zum Testen neuer Entwicklungen genutzt werden, müssen möglichst repräsentativ und vergleichbar zu den tatsächlichen Daten sein. Dies sollte einerseits der Fall sein, da nur mit möglichst realistischen Daten sichergestellt werden kann, dass die neue Entwicklung auch der geforderten Geschäftslogik entspricht und Edge Cases aufgedeckt werden können. Andererseits ist es insbesondere bei Performancetests wichtig, dass die Last des Systems mit plausiblen Daten gemessen wird, da Daten, die in der Menge oder der Komplexität den real auftretenden Datenmengen nicht entsprechen, nur weniger aussagekräftige Ergebnisse hervorbringen können.
Das künstliche Erzeugen von Testdaten ist insofern problematisch, da der Prozess sehr arbeits- und zeitintensiv sein kann, wenn man der Komplexität der echten Daten gerecht werden möchte. Anderenfalls riskiert man, dass die Daten zur Erprobung der neuen Entwicklungen unzureichend sind und möglicherweise kritische Fehler übersehen werden.
Auf die Verwendung echter Daten muss hingegen dringend verzichtet werden. Denn mit der Verwendung von echten Daten wird grundsätzlich der DSGVO-Grundsatz der Zweckbindung verletzt.
Die Verwendung wäre jedoch erlaubt, wenn die Nutzung der erhobenen Daten in einem Testsystem innerhalb der Datenschutzerklärung als Zweck aufgeführt würde. Es existieren auch weitere Ausnahmen, die eine derartige Verwendung möglich machen. Allerdings ist dies abhängig von vielen individuell zu prüfenden Faktoren und geht oftmals mit einem beträchtlichen organisatorischen Mehraufwand einher, um die „Vereinbarkeit“ des neuen Zwecks mit dem alten Zweck darzulegen oder eine „Erforderlichkeit“ der Verarbeitung rechtfertigen zu können.
Die Schulung von Mitarbeitern im Umgang mit neuen Programmen und Tools ist ein wichtiger Beitrag zur Entwicklung von Mitarbeitern im Unternehmen. Einige Anwendungen wie beispielsweise Microsoft Analysis for Office beziehen dabei ihre Daten aus dem Data Warehouse.
Auch hier ist es natürlich wichtig, dass die präsentierten Daten, mit denen die Schulungsteilnehmer das neue Programm kennenlernen, möglichst realistisch und plausibel sind. Der größte Lerneffekt kann nur dann erzielt werden, wenn Teilnehmer in einer möglichst repräsentativen Umgebung geschult werden.
Ähnlich wie im Anwendungsfall der Datenanonymisierung in Testsystemen besteht hier bei der Verwendung von echten Daten ein Konflikt mit dem Grundprinzip der Zweckbindung. Erschwerend kommt in diesem Anwendungsbeispiel hinzu, dass die Ausnahmen hinsichtlich der Vereinbarkeit und Erforderlichkeit, die die Verwendung von Echtdaten in Testumgebungen rechtlich möglich machen, im Falle von Schulungen wohl kaum zutreffen.
Auch in Produktivsystemen kann die Anonymisierung von Daten zum eigenen Vorteil eingesetzt werden. Personenbezogene Daten müssen nach Erreichen der geschäftlichen Notwendigkeit gemäß dem Grundsatz der Speicherbegrenzung gelöscht werden. Da gemäß Art. 17 DSGVO das “Recht auf Vergessenwerden” besteht, kann in einigen Fällen auch eine außerplanmäßige vorzeitige Löschung der personenbezogenen Daten notwendig sein. Bei einer Löschung der betroffenen Datensätze gehen so jedoch wertvolle historische Daten verloren.
Mithilfe von Datenanonymisierung können im Data Warehouse Datensätze fristgerecht anonymisiert werden, wodurch die Löschung der Datensätze verhindert werden kann. So können wesentliche Informationen aus historischen Daten auch weiterhin beispielsweise für Analysezwecke oder fürs Reporting auswertbar bleiben. Die zu verwendende Anonymisierungs-Methode wird auf Grundlage der Anforderungen an die Granularität der anonymisierten Daten gewählt.
Die drei präsentierten Beispiele zeigen auf, wie Datenanonymisierung im Data Warehouse in verschiedenen alltäglichen Szenarien eingesetzt werden kann und dabei rechtlich sowie fachlich viele Vorteile gegenüber alternativen Ansätzen mit sich bringt.
Die konkreten Anforderungen an ein Datenanonymisierungs-Tool hängen von vielen individuellen Faktoren ab. Dennoch sollten die folgenden drei Punkte in jedem Fall erfüllt sein:
Das Werkzeug muss…
Wir sehen also, dass der Schutz personenbezogener Daten einen hohen Stellenwert hat und bei Missachtung der DSGVO hohe Strafen drohen. Statt wertvolle Daten zu löschen, kann die Erfüllung der Datenschutz-Pflichten auch mithilfe von Datenanonymisierung erfolgen. Dabei bietet die Anonymisierung von Daten im Data Warehouse etwa für die Verwendung der Daten in Testsystemen oder zur Analyse historischer Daten entscheidende Vorteile gegenüber alternativen Ansätzen, die nicht nur gesetzlicher Natur sind.
Wie könnte jedoch die Umsetzung eines solchen Tools zur Datenanonymisierung im Data Warehouse konkret aussehen? In einem nachfolgenden Blogbeitrag werden wir Ihnen die movisco-Lösung zur Bewältigung der Herausforderungen bei der Anonymisierung von Daten in SAP BW präsentieren.
Haben Sie Fragen zum Thema Datenanonymisierung im Data Warehouse oder zu unserem Angebot zur Datenanonymisierung? Wir sind für Sie da: Jeremy Büdinger, Christoph Bauer und Dr. Robert Nabiullin.
Wir freuen uns über Ihre direkte Kontaktaufnahme!