Success Story TopPharm TopPharm bietet Industriepartnern eine sichere KPIaaS-Plattform für den Zugriff auf Verkaufsdaten, basierend auf Qlik & iVIEW und gehostet in der Swiss BI Cloud.
Success Story FRED Financial Data AG FRED Financial Data AG sichert Datenqualität für Vermögensverwalter und optimiert Prozesse durch die Migration auf Qlik Sense.
Success Story TopPharm TopPharm bietet Industriepartnern eine sichere KPIaaS-Plattform für den Zugriff auf Verkaufsdaten, basierend auf Qlik & iVIEW und gehostet in der Swiss BI Cloud.
Success Story FRED Financial Data AG FRED Financial Data AG sichert Datenqualität für Vermögensverwalter und optimiert Prozesse durch die Migration auf Qlik Sense.
Datenarchitekturen von den 1970ern bis heuteVerschaffen Sie sich einen umfassenden Überblick über die Entwicklung der Datenarchitekturen von hierarchischen Netzwerkdatenbanken bis hin zu Data Mesh und erfahren Sie, warum das Data Warehouse nach wie vor das am weitesten verbreitete Architekturmodell ist und warum es keine universelle Architektur für alle Unternehmen gibt. Data Warehouse Data Lake Data Lakehouse Data Fabric Data Mesh Die Entwicklung der Datenarchitektur wurde durch die wachsende Bedeutung von Daten in Unternehmen immer weiter vorangetrieben. Von traditionellen Data Warehouses bis hin zu modernen Data-Fabric- und Data-Mesh-Ansätzen haben diese Architekturen spezifische Herausforderungen bewältigt und neue Möglichkeiten eröffnet. Datenarchitektur Vergleich Datenarchitektur Übersicht Die 70er: Hierarchische und Netzwerk-DatenbankenIn den 1970er-Jahren wurden Computersysteme hauptsächlich von Grossrechnern dominiert, die zentralisiert waren. Die Organisation der Daten erfolgte mithilfe von hierarchischen oder Netzwerk-Datenbankmodellen. Diese Modelle boten die Möglichkeit, Daten in einer Datenbank auf verschiedene Weisen anzuordnen – sei es in einer hierarchischen Struktur, die eine Beziehung von einem Element zum anderen darstellte, oder in einem Netzwerk, das viele Elemente miteinander verband. Die 80er: Das Client-Server-ModellIn den späten 1980er- und frühen 1990er-Jahren entstand mit dem Aufkommen des Client-Server-Modells ein neues Paradigma der Datenarchitektur. Dieses Modell bedeutete eine Abkehr von den zentralisierten Grossrechnersystemen hin zu einem verteilten System, bei dem die Verantwortlichkeiten zwischen Servern (Anbietern von Ressourcen oder Diensten) und Clients (Nutzern dieser Dienste) aufgeteilt wurden. Im Bereich der Datenbanken bedeutete dies, dass die Datenbanksoftware (DBMS) auf einem Server installiert sein konnte, während Benutzer oder Anwendungen von Client-Rechnern aus auf die Daten zugreifen konnten. Dieser Ansatz revolutionierte die Skalierbarkeit und Zugänglichkeit und vereinfachte die Verwaltung wachsender Datenmengen und einer zunehmenden Anzahl von Benutzern. Die 90er: Traditionelles Data-WarehousingIn den späten 1990ern veränderte das Konzept des Data Warehousing die Herangehensweise der Unternehmen an die Speicherung und Analyse von Daten grundlegend. Im Kern handelt es sich bei einem Data Warehouse um einen grossen, zentralisierten Speicher für Daten, die aus verschiedenen Quellen stammen. Die Architektur verwendet eine dreistufige Struktur: die Datenquellenschicht, die Data-Warehouse-Schicht und die Frontend-Client-Schicht. ETL-Prozesse (Extrahieren, Transformieren, Laden) wurden eingesetzt, um Daten aus verschiedenen operativen Datenbanken zu ziehen, sie in ein konsistentes Format umzuwandeln und sie dann in das Data Warehouse zu laden. Die Daten wurden in der Regel in einer relationalen Datenbank gespeichert und auf der Grundlage eines OLAP-Würfelmodells (Online Analytical Processing) organisiert, das komplexe analytische und Ad-hoc-Abfragen ermöglichte. Die 2000er: Big Data und HadoopIn den 2000er-Jahren führte die Verbreitung des Internets, der sozialen Medien und von IoT-Geräten zu einem drastischen Anstieg des Datenvolumens, der Datenvielfalt und der Datengeschwindigkeit – es entstanden die sogenannten „Big Data“. Herkömmliche Data Warehouses konnten diese heterogenen, grossen Datenmengen, die mit hoher Geschwindigkeit generiert wurden, kaum noch bewältigen. Das Open-Source-Framework Hadoop revolutionierte ab dem Jahr 2005 die Datenarchitektur. Es wurde speziell für die Verarbeitung enormer Datenmengen in Computerclustern entwickelt. Das Framework führte das Konzept der verteilten Speicherung und Verarbeitung ein, was bedeutete, dass Daten nicht mehr an einen einzelnen Speicherort gebunden waren, sondern über mehrere Knoten verteilt gespeichert und verarbeitet werden konnten. Die 2010er: Cloud- und Data Lake-ArchitekturenIn den 2010er-Jahren setzte sich das Konzept des Cloud Computing als neues Paradigma durch, das skalierbare Ressourcen als Service über das Internet bereitstellt. Diese Entwicklung hatte bedeutende Auswirkungen auf die Datenarchitektur und führte zur Entstehung von Data Lakes: Wurde in herkömmlichen Data Warehouses der ETL-Prozess (Extrahieren, Transformieren, Laden) verwendet, um Daten aufzunehmen, setzen Data Lakes auf einen Extract-Load-Transform (ELT)-Prozess. Die Daten, die aus verschiedenen Quellen extrahiert werden, werden zuerst in einen kostengünstigen BLOB-Speicher geladen, dann transformiert und schliesslich in ein Data Warehouse übertragen, das teuren Blockspeicher verwendet.Aus der Notwendigkeit heraus, grosse Datenmengen in Echtzeit zu verarbeiten, entstanden die Lambda- und die Kappa-Architekturmodelle. Die Lamda-Architektur verfolgt einen hybriden Ansatz, der sowohl die Batch- als auch die Stream-Verarbeitung nutzt, um genaue und aktuelle Erkenntnisse zu gewinnen. Alle eingehenden Daten werden erfasst und nur als Anhang gespeichert, wodurch ein unveränderter historischer Datensatz entsteht. Dabei wird die Architekturkomponente in drei Schichten unterteilt: Batch Layer, Speed Layer und Serving Layer. In der Kappa-Architektur werden alle Daten als unbegrenzter Strom von Ereignissen aufgenommen und verarbeitet. Die Architektur besteht aus drei Hauptkomponenten: der Stream Ingestion, der Stream-Verarbeitung und der dauerhaften Speicherung. Die 2020er: Data LakehouseMit Data Lakehouses wurde eine neue Generation von Datenplattformen entwickelt: Ein Data Lakehouse kombiniert die Vorteile von Data Lakes und Data Warehouses, um strukturierte, halbstrukturierte und unstrukturierte Daten in einem einheitlichen Data Lake zu speichern. Dies macht separate Datensilos überflüssig und ermöglicht es Datenteams, Analysen durchzuführen und Erkenntnisse direkt aus den Rohdaten abzuleiten, ohne dass Daten verschoben oder dupliziert werden müssen. Für die logische Organisation von Daten in einem Lakehouse kommt die Medaillon-Architektur – auch „Multi Hop“-Architektur genannt – zum Einsatz. Ihr Ziel ist es, Struktur und Qualität der Daten schrittweise und progressiv zu verbessern, während sie durch jede Schicht der Architektur (Bronze – Silber – Gold) fliessen. Die 2020er: Data FabricDie Data Fabric repräsentiert die vierte Generation der Datenplattformarchitektur. Ihr Ziel ist es, Daten überall und jederzeit verfügbar zu machen. Eine Data Fabric besteht aus einem Netzwerk von Datenplattformen wie Data Warehouses, Data Lakes, IoT/Edge-Geräten und transaktionalen Datenbanken, die miteinander interagieren und über das Computing-Ökosystem des Unternehmens verteilt sind. Ein Knoten in der Fabric kann Rohdaten an einen anderen liefern, der dann Analysen durchführt. Diese Analysen können als REST-APIs innerhalb der Fabric bereitgestellt werden, sodass sie von Transaktionssystemen für Entscheidungsfindungen genutzt werden können. Datenbestände lassen sich in verschiedenen Kategorien veröffentlichen, was die Schaffung eines unternehmensweiten Datenmarktplatzes ermöglicht. Zukunftskonzept Data Mesh Data Mesh ist ein architektonisches Konzept für die Organisation von Daten in grossen Unternehmen. Anstatt Daten zentralisiert zu speichern und zu verwalten, werden sie in einem Data Mesh dezentralisiert. Das bedeutet, dass Daten in einzelnen Domänen oder Geschäftsbereichen verbleiben, und es werden Mechanismen eingeführt, um den Zugriff und Austausch zwischen diesen Domänen zu ermöglichen. Data Mesh basiert typischerweise auf vier Prinzipien: Domänenorientierung, Selbstbedienung, Datenproduktisierung und Infrastrukturautomatisierung. Durch die Einführung eines Data Mesh können Unternehmen flexibler auf Veränderungen reagieren, da die Datenverwaltung auf die spezifischen Anforderungen einzelner Geschäftsbereiche zugeschnitten ist und gleichzeitig die Skalierbarkeit und Wiederverwendbarkeit von Daten erhöht wird. Datenarchitekturen Vergleich Data Warehouse bleibt gängigstes DatenarchitekturmodellObwohl neue Architekturen wie Data Lakes und Data Meshes an Bedeutung gewinnen, bleiben Data Warehouses weiterhin die aktuell gängigste Datenarchitekturvariante. Sie haben sich als bewährte Methode etabliert, um grosse Mengen strukturierter Daten zentral zu speichern und zu analysieren. Unternehmen schätzen ihre Zuverlässigkeit und Stabilität, die sie über die Jahre bewiesen haben. Zudem sind Data Warehouses eng mit Business Intelligence (BI)- und Analysetools integriert, was eine nahtlose Analyse der gespeicherten Daten ermöglicht.Ein weiterer wichtiger Aspekt ist die Fähigkeit von Data Warehouses, historische Daten effizient zu speichern und zu verarbeiten. Dies ermöglicht es Unternehmen, Trends, Muster und Veränderungen im Laufe der Zeit zu identifizieren und fundierte Entscheidungen zu treffen. Die zentrale Speicherung und Verwaltung von Daten in Data Warehouses unterstützt ausserdem eine hohe Datenqualität und Konsistenz, was für Unternehmen von entscheidender Bedeutung ist. Moderne Data Warehouse-Technologien bieten zudem Skalierbarkeitsoptionen, die es Unternehmen ermöglichen, ihre Infrastruktur bei Bedarf zu erweitern, um mit dem Wachstum der Datenmengen Schritt zu halten. Architekturauswahl muss bedarfsabhängig erfolgenEine universelle Architektur, die für alle Anwendungsfälle und jedes Unternehmen geeignet ist, gibt es nicht. Vielmehr wird die Wahl der passenden Architektur durch eine Vielzahl von Faktoren bestimmt. Dazu gehören sowohl die aktuellen als auch die zukünftigen Use Cases, die Vielfalt der Datenlandschaft sowie die Technologien und Plattformen, die verwendet werden. Jede Organisation hat ihre eigenen Anforderungen und Herausforderungen, die eine massgeschneiderte Architektur erfordern können. Es ist daher von entscheidender Bedeutung, eine Architektur zu entwickeln, die sowohl den aktuellen als auch den zukünftigen Bedürfnissen gerecht wird und gleichzeitig flexibel genug ist, um sich an sich ändernde Anforderungen anzupassen. DATA WAREHOUSETechnologie: DBMS Plattformen: On prem oder Cloud Datenquellen: Strukturiert Daten Integration: Batch Datenmodelle: Dimensional, data vault Datenqualität: Gesicherte Daten Governance: Zentral Bedeutung der Metadaten: Mittel Nutzung: Standardberichte, Adhoc Analysen DATA LAKETechnologie: Obj. StoresPlattformen: CloudDatenquellen: Alle DatenDaten Integration: CopyDatenmodelle: SchemafreiDatenqualität: UngeprüftDaten Governance: Nicht definiertBedeutung der Metadaten: NiedrigNutzung: Data Science Lambda/KafkaTechnologie: StreamingPlattformen: On prem und/oder Cloud Datenquellen: Strukturiert und semistrukturiertDaten Integration: Stream und BatchDatenmodelle: Stream und modelliertDatenqualität: Monitoring der StreamsDaten Governance: Nur minimal definiertBedeutung der Metadaten: Niedrig bis MittelNutzung: KI-gestützte Echtzeitanalysen DATA LAKEHOUSETechnologie: DBMS und Obj. StoresPlattformen: CloudDatenquellen: HybridDaten Integration: Copy und BatchDatenmodelle: HybridDatenqualität: Partiell gesichertDaten Governance: ZentralBedeutung der Metadaten: MittelNutzung: Standardberichte, Adhoc Analysen, Data Science DATA FABRICTechnologie: Data VirtualityPlattformen: On prem und/oder Cloud Datenquellen: Strukturiert Daten Integration: VirtuellDatenmodelle: Dimensional, data vault Datenqualität: MonitoringDaten Governance: HybridBedeutung der Metadaten: HochNutzung: Standardberichte, Adhoc Analysen DATA MESHTechnologie: Unterschiedliche Formate und Data CatalogsPlattformen: On prem und/oder Cloud Datenquellen: HybridDaten Integration: Copy, Batch, StreamDatenmodelle: HybridDatenqualität: DezentralDaten Governance: DezentralBedeutung der Metadaten: HochNutzung: Standardberichte, Adhoc Analysen, Data Science, KI-gestützte Echtzeitanalysen Datenarchitekturen Übersicht Als erfahrene Modern-Intelligence-Experten für ganzheitliche End-to-End Data Intelligence unterstützen wir Unternehmen bei der Auswahl und dem Aufbau einer bedarfsgerechten und zukunftsfähigen Datenarchitektur. Nehmen Sie Kontakt auf!Unsere Datamanagement Dienstleistungen