Ihr Standort: movisco // Blog »
kontakt mail icon
kontakt phone icon

Data Lakehouse am Beispiel von SAP BW und Snowflake dargestellt

Data Warehouses sind der Kern moderner Entscheidungssysteme, die es ermöglichen, große Mengen an unstrukturierten und strukturierten Daten aus verschiedenen Quellen zu sammeln, zu integrieren und zu analysieren. Mit zunehmender Nutzung steigen die Anforderungen bspw. hinsichtlich Integration und Speicherung unterschiedlicher Datentypen, Datenmenge, Geschwindigkeit, erweiterte Analysemöglichkeit, KI-Integration, Leistung und Skalierbarkeit an Datawarehouses stetig. Eine flexible Plattform bzw. Architektur unterstützt den Umgang mit komplexen Anforderungen besser als ein begrenztes, restriktives Produkt.  
Auf Grundlage dessen könnte eine mögliche Lösung lauten, die Vorzüge zweier Produkte miteinander zu kombinieren. Dies bedeutet eine Art Data Lakehouse aufzubauen, um so die Architektur im Unternehmen zu einer analytischen Plattform auszubauen, ein fortschrittliches Data Warehousing und skalierbare Datenspeicherung zu gewährleisten und die Servicequalität weiterhin sicherzustellen.
Anknüpfend an den Blogbeitrag „Einblick in SAP-Datenarchitektur: Unterschiede zwischen Datenbanken, Data Warehouses und Data Lakes“ soll nun erläutert werden, was Data Lakehouses sind, welche Vorteile und Herausforderungen sie mitbringen und wie ein Zusammenspiel von SAP BW und Snowflake in diesem Kontext aussehen kann.

Der Markt im Umbruch

Immer mehr Unternehmen aus unterschiedlichen Branchen, unter anderem auch der Finanzbranche, sehen die gewachsenen Anforderungen an ein Data Warehouse und stellen sich die Frage nach künftiger BI-architektonischer Ausrichtung. Früher war das Data Warehouse als Single Point of Truth für BI-Werkzeuge meistens die einzige Quelle. Statt der Fokussierung auf Qualität und Stabilität sowie die Integration operativer strukturierter Daten in einen „Single-Point-of-Truth“, ist die Sichtweise auf BI-Landschaften heute differenzierter. Neben klassischen Data Warehouses haben zunehmend Data Lakes als zentrale Speicherorte enorm an Bedeutung gewonnen. Umso mehr stellt sich die Bedeutung einer Integration beider Ansätze für die Weiterentwicklung einer zukunftssicheren BI- und Datenstrategie.

Data Lakehouse als ideale Datenverwaltungslösung

Data Lakehouses stellen bereits seit einiger Zeit die nächste Entwicklung von Datenverwaltungslösungen bzw. Datenarchitekturen auf dem Markt dar. Die Besonderheit eines Data Lakehouses liegt darin, dass diese eine Datenplattform bilden, welche die wesentlichen Aspekte von Data Warehouses und Data Lakes in einer Lösung vereinen:

  • Die Speicherung von strukturierten, semi-strukturierten und unstrukturierten Rohdaten in der flexiblen und skalierbaren Architektur des Data Lake.
  • Die Funktionalitäten der Datenstrukturierung und -verarbeitung des Data Warehouse.

Grundlagen

Im klassischen Data Warehouse werden strukturierte Daten in einer relationalen Umgebung organisiert und gespeichert. Diese Architektur ist besonders geeignet für Geschäftsberichte und Analysen und bietet integrierte Speicher- und Rechenressourcen. Ebenfalls sorgt sie für eine hohe Performance bei Datentransformationen und -abfragen, ist jedoch oft teuer und schwer zu skalieren, besonders für unstrukturierte Daten.

Ein Data Lake ist eine Art zentralisierte Speicherumgebung, in der große Mengen an Rohdaten (strukturiert und unstrukturiert) in ihrem nativen Format abgelegt werden können, ohne jedoch Rechenleistung zur Verfügung zu stellen. Für Schreib- oder Lesevorgänge werden Dienste benötigt, die die entsprechenden Computing-Ressourcen bereitstellen. Data Lakes bieten die Grundlage für Anwendungsfälle wie maschinelles Lernen und prädiktive Analysen, die für datengetriebene Geschäftsentscheidungen zunehmend an Bedeutung gewinnen. Diese Architektur ist kosteneffizient und skalierbar, allerdings oft weniger optimiert für schnelle Abfragen und strukturierte Analysen, was die Nutzung für Business Intelligence-Anwendungen erschwert.

Das Data-Lakehouse hat in den letzten Jahren in der Praxis erheblich an Bedeutung gewonnen. Nicht zuletzt aufgrund der zweistufigen Verbindung in einen gemeinsamen Ansatz. Dadurch werden die Vorzüge beider Architekturen miteinander verzahnt. Das Konzept bietet demnach die Flexibilität und Skalierbarkeit eines Data Lakes bei der Datenintegration und -speicherung sowie die Performance, strukturierte Organisation und Qualität eines Data Warehouses. Aufgrund der Trennung von Storage und Computing-Ressourcen, werden Rechenressourcen nur bei Bedarf genutzt. Diese Trennung ermöglicht es Unternehmen, sowohl strukturierte als auch unstrukturierte Daten kostengünstig zentral zu speichern, zu verarbeiten und gleichzeitig für verschiedene analytische und operative Anwendungen nutzbar zu machen. Ein Data Lakehouse zielt darauf ab, datengetriebene Entscheidungsprozesse zu vereinfachen, die Flexibilität zu erhöhen und die Kosten zu senken.  

Vorteile eines Data Lakehouse

  • Kostengünstig: Die Architektur profitiert von niedrigen Kosten für Cloud-Storage. Zudem macht ein Data Lakehouse die Wartung mehrerer Datenspeichersysteme überflüssig, wodurch der Betrieb kostengünstiger wird.
  • Skalierbarkeit: Aufgrund der Trennung von Storage und Computing, können Datenteams auf denselben Datenspeicher zugreifen und gleichzeitig verschiedene Computing-Konten für unterschiedlichen Anwendungen nutzen.
  • Flexibilität: Data Lakehouses können für Machine Learning, Big Data Processing und Business Intelligence (BI) verwendet werden und bieten so einen zentralen Ansatz für verschiedene Analyseszenarien, die früher separaten Architekturen vorbehalten waren.
  • Streaming Unterstützung: Data Lakehouses unterstützen Echtzeitaufnahmen.
  • Bessere Verwaltung:  Die Data-Lakehouse-Architektur reduziert die üblichen Governance-Probleme, die mit Data Lakes einhergehen. So lässt sich beispielsweise bei der Aufnahme und beim Hochladen von Daten sicherstellen, dass die Daten den definierten Schemaanforderungen entsprechen, wodurch spätere Datenqualitätsprobleme reduziert werden.
  • Performance: Moderne Abfragemethoden und Indizierungen verbessern die Geschwindigkeit von Datenabfragen auf großen, teilweise unstrukturierten Datensätzen.

Herausforderungen eines Data Lakehouses

Auch wenn Data Lakehouses eine leistungsstarke Lösung sind, gibt es für Unternehmen auch einige Herausforderungen zu beachten:

  • Komplexität und Know-how: Die Kombination der Vorteile von Data Lakes und Data Warehouses erfordert eine sorgfältige Architekturplanung und fundierte Kenntnisse in beiden Technologien.
  • Datenqualität und Governance: Es erfordert robuste Mechanismen zur Sicherstellung der Datenqualität und zur Verwaltung von Zugriffsrechten, um Inkonsistenzen und Sicherheitsrisiken zu vermeiden.
  • Kompromisse zwischen Kosten und Leistung: Oftmals ist es schwer die richtige Balance zwischen Kosteneffizienz und Leistung zu finden. Data Lakehouses bieten kosteneffizienten Speicherplatz. Eine leistungsstarke Analyse kann zusätzlich Investition in Rechenressourcen erfordern.

SAP BW und Snowflake in einem Data Lakehouse-Modell

Das Thema „SAP BW und Snowflake in einem Data Lakehouse-Modell“ betrifft den modernen Ansatz zur Integration von Data Warehousing und Data Lakes, wobei traditionelle SAP-Systeme mit skalierbaren Cloud-Diensten wie Snowflake kombiniert werden. Dies ermöglicht Unternehmen eine flexiblere und kosteneffizientere Datenverwaltung, die es erlaubt, strukturierten und unstrukturierten Daten zugleich zu verarbeiten.
Folgend ein Überblick, wie SAP BW (Business Warehouse) und Snowflake in einem solchen Modell zusammenarbeiten können:

SAP BW ist seit Jahrzehnten das zentrale Werkzeug für die Verwaltung und Analyse von Geschäftsdaten. Es organisiert und speichert Unternehmensdaten in strukturierten Modellen und bietet Werkzeuge zur ETL-Verarbeitung, Modellierung und Berichterstattung. Das SAP BW bietet starke Integration in SAP-Systeme (z.B. SAP ERP, SAP S/4HANA) und ist besonders effektiv im Umgang mit strukturierten Daten und traditionellen BI-Anforderungen. Zugleich die Architektur von SAP BW jedoch bei wachsender Datenmenge und zunehmender Vielfalt von unstrukturierten Daten an Grenzen stoßen kann. Zudem kann die Datenintegration mit externen Cloud-Diensten schwierig sein.

Snowflake ist eine Cloud-native Plattform für Data Warehousing und Analytics, die sich durch Skalierbarkeit, Flexibilität und Benutzerfreundlichkeit auszeichnet. Sie ermöglicht die Speicherung und Analyse großer Datenmengen aus verschiedenen Quellen in einem zentralen System. Snowflake kann Daten aus verschiedenen Formaten (strukturiert, semi-strukturiert und unstrukturiert) verarbeiten und ist besonders gut für skalierbare Analysen geeignet. Es bietet auch Funktionen für Datenfreigabe und -sicherheit, die ein Data Lakehouse-Modell ideal unterstützen. Snowflake ist besonders für Cloud-Datenquellen optimiert und braucht eine gewisse Anpassung für die Integration mit On-Premises-Systemen wie SAP BW.

Um das Beste aus beiden Welten zu kombinieren, wird SAP BW häufig als ETL- und Bereitstellungsplattform für zentrale Unternehmensdaten verwendet, während Snowflake als Hauptspeicher- und Analyse-Engine dient.

  • Datenpipeline und Synchronisierung: Mit Datenextraktions- und Integrationswerkzeugen (z.B. SAP Data Services, SAP BW Open Hub Service, SAP Smart Data Integration (SDI) oder ODBC/JDBC Schnittstellen und Drittanbieter-ETL-Tools wie Matillion) können Daten von SAP BW in Snowflake geladen werden. Dabei können historische Daten, transaktionale Daten und Metadaten aus SAP BW für analytische Zwecke in Snowflake repliziert werden.
  • Datenverarbeitung und Transformation: Snowflake erlaubt umfangreiche Transformationen und Datenaufbereitung im Cloud-Umfeld und unterstützt moderne Data-Engineering-Workflows. Unternehmen nutzen oft Snowflake, um Daten nach dem Import aus SAP BW weiter anzureichern, zu transformieren und in Echtzeit für Analysen bereitzustellen.
  • Analytics und Machine Learning: Snowflake bietet eine leistungsstarke Umgebung für analytische Abfragen und ist für BI- und Machine-Learning-Integrationen optimiert, während SAP BW weiterhin die zentralen Datenmodelle und Stammdatenstrukturen pflegt.
  • Data Governance und Sicherheit: SAP BW verfügt über ausgefeilte Berechtigungs- und Governance-Modelle, um die Compliance und Sicherheit von SAP-Daten sicherzustellen. Snowflake hat ebenfalls starke Sicherheitsfunktionen, einschließlich Datenverschlüsselung, Zugriffskontrollen und Sicherheitskompatibilität (z.B. GDPR, HIPAA). Unternehmen können diese Sicherheitsebenen synchronisieren oder ergänzen, um sicherzustellen, dass alle Sicherheitsanforderungen im Data Lakehouse-Modell erfüllt werden.
  • Analyse und Reporting: Tools wie Tableau, Power BI, oder SAP Analytics Cloud können direkt auf Snowflake zugreifen, um Berichte und Dashboards zu erstellen, die SAP-Daten und unstrukturierte Daten kombinieren.

Vorteile eines kombinierten SAP BW und Snowflake Data Lakehouse

  • Zentrale Datenbasis: SAP BW bleibt die Hauptquelle für gut strukturierte Geschäftsdaten, die aus ERP- und anderen SAP-Systemen stammen. Snowflake erweitert diese Basis und ermöglicht die Speicherung und Verarbeitung von zusätzlichen, oft weniger strukturierten oder semi-strukturierten Daten.
  • Skalierbarkeit und Flexibilität: Snowflake skaliert flexibel für große Datenmengen und komplexe Abfragen, während SAP BW die betriebsrelevanten Daten verwaltet und stabilisiert.
  • Erweiterte Analytik und Data Science: Durch die Speicherung von Daten in Snowflake können moderne Analysetools und Data-Science-Anwendungen (z.B. für Predictive Analytics und Machine Learning) genutzt werden.
  • Kosteneffizienz: Durch die Kombination der beiden Systeme können Unternehmen die Speicher- und Verarbeitungsanforderungen für SAP BW reduzieren und die Kosten optimieren, da Snowflake eine kostengünstige Speicherung und Skalierbarkeit bietet.

Fazit

Das Data Lakehouse bietet eine vielseitige und skalierbare Lösung für moderne Datenanforderungen und wird zunehmend in Unternehmen eingesetzt, die ihre Datenlandschaft vereinheitlichen und die Wertschöpfung aus Daten maximieren möchten. Durch die Kombination der besten Eigenschaften von Data Lakes und Data Warehouses ermöglicht ein Data Lakehouse die Verarbeitung großer Datenmengen und die Bereitstellung von Echtzeit- und Batch-Analysen in einem zentralen System.

Die Kombination von SAP BW und Snowflake in einem Data Lakehouse-Modell schafft eine zukunftsfähige Datenarchitektur, die strukturierte Geschäftsdaten aus SAP BW nahtlos mit der Skalierbarkeit und Analysefähigkeit von Snowflake verbindet. Dieses Modell erlaubt Unternehmen, ihre Daten in Echtzeit und auf skalierbare Weise zu analysieren und fördert Innovationen im Bereich Advanced Analytics und Machine Learning.


Wenn auch Sie sich die Frage stellen, wie eine mögliche Integration von SAP BW und Snowflake in einem Data Lakehouse Modell aussehen kann, dann stehen wir Ihnen gerne für einen unverbindlichen Erfahrungsaustausch zur Verfügung.


Ihre Ansprechpartnerin

Susanne Jung

info@movisco.com
elektronische Visitenkarte

Fon +49 40 767 53 777

Schnellkontakt-Formular

Die abgesendeten Daten werden nur zum Zweck der Bearbeitung Ihres Anliegens verarbeitet. Weitere Informationen finden Sie in unserer Datenschutzerklärung.

Datenschutz bestätigt?

Sie haben Fragen?

Wir freuen uns über Ihre direkte Kontaktaufnahme!

  • Telefon: +49 40 767 53 777
  • E-Mail