Data Warehouse oder Data Lake: Was ist das Richtige für Sie?

Data Warehouse oder Data Lake: Was ist das Richtige für Sie?

Sollte Ihr Unternehmen in einen Data Lake oder in ein Data Warehouse investieren? Hier erklären wir die Unterschiede zwischen den beiden.

Die Vorgehensweise beim Datenmanagement gehört zu den größten Herausforderungen, vor denen alle Unternehmen derzeit stehen. Die Unternehmen müssen nicht nur mit ständig wachsenden Datenmengen zurechtkommen, sondern aufgrund von Innovationen wie dem Internet der Dinge (IoT) mit seinen Sensoren auch mit einer zunehmenden Vielfalt von Datentypen aus verschiedenen Quellen.

Gleichzeitig besteht ein steigender Bedarf, diese Rohdaten in Echtzeit oder nahezu in Echtzeit in nützliche Erkenntnisse zu verwandeln. All dies bedeutet mehr Druck denn je auf die Systeme, die Sie für die Erfassung, Speicherung und Verarbeitung von Daten benötigen.

Wenn es um die Verwaltung dieser Datenfülle geht, sind eine Data Warehouse-Lösung oder ein Data Lake die beiden wichtigsten Optionen. Ersteres ist ein Konzept, das seit vielen Jahren existiert und daher jedem IT-Manager bekannt sein sollte, während „Data Lake“ ein relativ neuer Begriff ist, der im Zusammenhang mit der Big Data-Ära aufgekommen ist.

Einige Leute mögen glauben, dass der Data Lake nur eine Weiterentwicklung des älteren Data Warehouse ist, und Sie werden erleben, dass beide Begriffe austauschbar als Bezeichnung für jeden zentralen Datenspeicher eines Unternehmens angewendet werden. Es gibt allerdings einige wichtige Unterschiede zwischen den beiden. Diese Unterschiede und ihre Auswirkungen auf die Handhabung der Daten zu verstehen, ist daher unerlässlich, wenn Sie entscheiden sollen, welche dieser Technologien die richtige für Ihr Unternehmen ist.

Rohdaten oder verarbeitete Daten

Einer der zentralen Unterschiede zwischen einem Data Warehouse und einem Data Lake besteht in dem von ihnen gespeicherten Informationstyp. Ein Data Lake ist grob gesagt ein System, in dem ein Unternehmen ausnahmslos alle Datentypen ablegen kann, also auch unstrukturierte Rohdaten aus allen Quellen, auf die das Unternehmen Zugriff hat. Ein Data Warehouse hingegen verarbeitet vorverarbeitete, strukturierte Daten, die bereinigt und in ein analysefähiges Format umgewandelt wurden.

Heißt das also, dass das Data Warehouse die bessere Lösung für Analysefunktionen ist? Nicht unbedingt, denn das hängt von der Art der Daten ab, die Ihr Unternehmen erzeugt, und was Sie mit ihnen machen wollen. Für Finanzdienstleister beispielsweise wird eine Warehousing-Lösung sehr nützlich sein, da viele der von ihnen gespeicherten Daten bereits sehr gut strukturiert und einfach zu verwalten sind.

Andere Branchen hingegen haben es mit deutlich schwächer strukturierten Daten zu tun. Im Gesundheitswesen beispielsweise wird es große Mengen an klinischen Daten, Patientenakten und medizinischem Bildmaterial geben, die analysiert werden müssen. Wegen der großen Bandbreite der beteiligten Typen und Quellen und des Fehlens klarer Strukturen sind Warehouse-Lösungen für diese Art von Einrichtungen nicht die effizienteste Form der Datenhandhabung.

Haben Sie klare Pläne für Ihre Daten?

Aufgrund der stärkeren Strukturierung, die Data Warehouses bieten, sind diese Lösungen deutlich besser für Unternehmen geeignet, die eine sehr klare Vorstellung davon haben, was sie mit ihren Daten vorhaben und welche Art von Ergebnis sie erwarten.

Im Normalfall werden in einem Data Warehouse gespeicherte Daten einfacher zu analysieren und zur Gewinnung von Erkenntnissen zu verwenden sein als der weniger strukturierte Data Lake. Da die Daten überdies vor ihrer Ablage im Data Warehouse bereits verarbeitet wurden, wurden sie wahrscheinlich für einen konkreten Zweck verwendet und dürften daher relevanter sein als Rohdaten.

Den „Datenseen“ fehlt zwar diese Strukturierung, sie können aber deutlich flexibler sein als ein Warehouse. Direkt mit Rohdaten arbeiten zu können, bedeutet für die Nutzer, dass sie neue Techniken ausprobieren, ihre Modelle und Abfragen zur Beantwortung eines breiteren Spektrums an Fragen neu konfigurieren innovativer bei der Handhabung ihrer Daten sein können. Wenn Sie also noch keine klare Vorstellung von dem Zweck haben, für den Sie Ihre Daten verwenden werden, sind Data Lakes der ideale Ort zum Experimentieren.

Wer interagiert mit den Daten?

In den letzten Jahren ist die Idee auf großes Interesse gestoßen, dass Daten für alle da sein sollten und nicht nur für IT-Experten. Wenn Sie aber erreichen wollen, dass Geschäftsbereiche und operative Fachkräfte direkt mit Ihren Daten arbeiten können, dürfte eine Warehousing-Lösung der bessere Ansatz sein.

Der Grund ist auch hier das stärker strukturierte Format dieser Systeme, das es Personen ohne umfangreiche Programmierkenntnisse und -erfahrungen leichter macht, mit dem System zu interagieren und Erkenntnisse daraus zu gewinnen. Auf „Datenseen“ zu navigieren, kann hingegen schwieriger sein und mehr Spezialkenntnisse erfordern, um ihre Ressourcen optimal zu nutzen. Sie können zwar möglicherweise eine größere Anzahl von Fragen beantworten als ein Data Warehouse, aber es werden spezialisierte Datenwissenschaftler erforderlich sein, um dies zu erreichen.

Insights for Professionals bietet kostenlos Zugang zu brandaktuellen vordenkerischen Ideen globaler Marken. Wir liefern unseren Abonnenten einen Mehrwert, indem wir spezifische Inhalte für erfahrene Fachkräfte schaffen und zusammentragen. Um weitere IT-Inhalte anzuzeigen, hier klicken.

Insights for Professionals