Die Entwicklung der Datenarchitektur wurde durch die wachsende Bedeutung von Daten in Unternehmen immer weiter vorangetrieben. Von traditionellen Data Warehouses bis hin zu modernen Data-Fabric- und Data-Mesh-Ansätzen haben diese Architekturen spezifische Herausforderungen bewältigt und neue Möglichkeiten eröffnet.   

  • Die 70er: Hierarchische und Netzwerk-Datenbanken

    In den 1970er-Jahren wurden Computersysteme hauptsächlich von Grossrechnern dominiert, die zentralisiert waren. Die Organisation der Daten erfolgte mithilfe von hierarchischen oder Netzwerk-Datenbankmodellen. Diese Modelle boten die Möglichkeit, Daten in einer Datenbank auf verschiedene Weisen anzuordnen – sei es in einer hierarchischen Struktur, die eine Beziehung von einem Element zum anderen darstellte, oder in einem Netzwerk, das viele Elemente miteinander verband. 

  • Die 80er: Das Client-Server-Modell

    In den späten 1980er- und frühen 1990er-Jahren entstand mit dem Aufkommen des Client-Server-Modells ein neues Paradigma der Datenarchitektur. Dieses Modell bedeutete eine Abkehr von den zentralisierten Grossrechnersystemen hin zu einem verteilten System, bei dem die Verantwortlichkeiten zwischen Servern (Anbietern von Ressourcen oder Diensten) und Clients (Nutzern dieser Dienste) aufgeteilt wurden. Im Bereich der Datenbanken bedeutete dies, dass die Datenbanksoftware (DBMS) auf einem Server installiert sein konnte, während Benutzer oder Anwendungen von Client-Rechnern aus auf die Daten zugreifen konnten. Dieser Ansatz revolutionierte die Skalierbarkeit und Zugänglichkeit und vereinfachte die Verwaltung wachsender Datenmengen und einer zunehmenden Anzahl von Benutzern. 

  • Die 90er: Traditionelles Data-Warehousing

    In den späten 1990ern veränderte das Konzept des Data Warehousing die Herangehensweise der Unternehmen an die Speicherung und Analyse von Daten grundlegend. Im Kern handelt es sich bei einem Data Warehouse um einen grossen, zentralisierten Speicher für Daten, die aus verschiedenen Quellen stammen. 

    Die Architektur verwendet eine dreistufige Struktur: die Datenquellenschicht, die Data-Warehouse-Schicht und die Frontend-Client-Schicht. ETL-Prozesse (Extrahieren, Transformieren, Laden) wurden eingesetzt, um Daten aus verschiedenen operativen Datenbanken zu ziehen, sie in ein konsistentes Format umzuwandeln und sie dann in das Data Warehouse zu laden. Die Daten wurden in der Regel in einer relationalen Datenbank gespeichert und auf der Grundlage eines OLAP-Würfelmodells (Online Analytical Processing) organisiert, das komplexe analytische und Ad-hoc-Abfragen ermöglichte.

    Architektur Data Warehouse Informatec
  • Die 2000er: Big Data und Hadoop

    In den 2000er-Jahren führte die Verbreitung des Internets, der sozialen Medien und von IoT-Geräten zu einem drastischen Anstieg des Datenvolumens, der Datenvielfalt und der Datengeschwindigkeit – es entstanden die sogenannten „Big Data“. Herkömmliche Data Warehouses konnten diese heterogenen, grossen Datenmengen, die mit hoher Geschwindigkeit generiert wurden, kaum noch bewältigen. 

    Das Open-Source-Framework Hadoop revolutionierte ab dem Jahr 2005 die Datenarchitektur. Es wurde speziell für die Verarbeitung enormer Datenmengen in Computerclustern entwickelt. Das Framework führte das Konzept der verteilten Speicherung und Verarbeitung ein, was bedeutete, dass Daten nicht mehr an einen einzelnen Speicherort gebunden waren, sondern über mehrere Knoten verteilt gespeichert und verarbeitet werden konnten. 

  • Die 2010er: Cloud- und Data Lake-Architekturen

    In den 2010er-Jahren setzte sich das Konzept des Cloud Computing als neues Paradigma durch, das skalierbare Ressourcen als Service über das Internet bereitstellt. Diese Entwicklung hatte bedeutende Auswirkungen auf die Datenarchitektur und führte zur Entstehung von Data Lakes: Wurde in herkömmlichen Data Warehouses der ETL-Prozess (Extrahieren, Transformieren, Laden) verwendet, um Daten aufzunehmen, setzen Data Lakes auf einen Extract-Load-Transform (ELT)-Prozess. Die Daten, die aus verschiedenen Quellen extrahiert werden, werden zuerst in einen kostengünstigen BLOB-Speicher geladen, dann transformiert und schliesslich in ein Data Warehouse übertragen, das teuren Blockspeicher verwendet.

    Aus der Notwendigkeit heraus, grosse Datenmengen in Echtzeit zu verarbeiten, entstanden die Lambda- und die Kappa-Architekturmodelle. Die Lamda-Architektur verfolgt einen hybriden Ansatz, der sowohl die Batch- als auch die Stream-Verarbeitung nutzt, um genaue und aktuelle Erkenntnisse zu gewinnen. Alle eingehenden Daten werden erfasst und nur als Anhang gespeichert, wodurch ein unveränderter historischer Datensatz entsteht. Dabei wird die Architekturkomponente in drei Schichten unterteilt: Batch Layer, Speed Layer und Serving Layer. In der Kappa-Architektur werden alle Daten als unbegrenzter Strom von Ereignissen aufgenommen und verarbeitet. Die Architektur besteht aus drei Hauptkomponenten: der Stream Ingestion, der Stream-Verarbeitung und der dauerhaften Speicherung. 

    Architektur Data Lake Informatec
  • Die 2020er: Data Lakehouse

    Mit Data Lakehouses wurde eine neue Generation von Datenplattformen entwickelt: Ein Data Lakehouse kombiniert die Vorteile von Data Lakes und Data Warehouses, um strukturierte, halbstrukturierte und unstrukturierte Daten in einem einheitlichen Data Lake zu speichern. Dies macht separate Datensilos überflüssig und ermöglicht es Datenteams, Analysen durchzuführen und Erkenntnisse direkt aus den Rohdaten abzuleiten, ohne dass Daten verschoben oder dupliziert werden müssen. Für die logische Organisation von Daten in einem Lakehouse kommt die Medaillon-Architektur – auch „Multi Hop“-Architektur genannt – zum Einsatz. Ihr Ziel ist es, Struktur und Qualität der Daten schrittweise und progressiv zu verbessern, während sie durch jede Schicht der Architektur (Bronze – Silber – Gold) fliessen.

    Architektur Data Lakehouse Informatec
  • Die 2020er: Data Fabric

    Die Data Fabric repräsentiert die vierte Generation der Datenplattformarchitektur. Ihr Ziel ist es, Daten überall und jederzeit verfügbar zu machen. Eine Data Fabric besteht aus einem Netzwerk von Datenplattformen wie Data Warehouses, Data Lakes, IoT/Edge-Geräten und transaktionalen Datenbanken, die miteinander interagieren und über das Computing-Ökosystem des Unternehmens verteilt sind. Ein Knoten in der Fabric kann Rohdaten an einen anderen liefern, der dann Analysen durchführt. Diese Analysen können als REST-APIs innerhalb der Fabric bereitgestellt werden, sodass sie von Transaktionssystemen für Entscheidungsfindungen genutzt werden können. Datenbestände lassen sich in verschiedenen Kategorien veröffentlichen, was die Schaffung eines unternehmensweiten Datenmarktplatzes ermöglicht. 

    Informatec Architektur Data Fabric
  • Zukunftskonzept Data Mesh 

    Data Mesh ist ein architektonisches Konzept für die Organisation von Daten in grossen Unternehmen. Anstatt Daten zentralisiert zu speichern und zu verwalten, werden sie in einem Data Mesh dezentralisiert. Das bedeutet, dass Daten in einzelnen Domänen oder Geschäftsbereichen verbleiben, und es werden Mechanismen eingeführt, um den Zugriff und Austausch zwischen diesen Domänen zu ermöglichen. 
    Data Mesh basiert typischerweise auf vier Prinzipien: Domänenorientierung, Selbstbedienung, Datenproduktisierung und Infrastrukturautomatisierung. Durch die Einführung eines Data Mesh können Unternehmen flexibler auf Veränderungen reagieren, da die Datenverwaltung auf die spezifischen Anforderungen einzelner Geschäftsbereiche zugeschnitten ist und gleichzeitig die Skalierbarkeit und Wiederverwendbarkeit von Daten erhöht wird.

    Architektur Data Mesh Informatec

Datenarchitekturen Vergleich

Data Warehouse bleibt gängigstes Datenarchitekturmodell

Obwohl neue Architekturen wie Data Lakes und Data Meshes an Bedeutung gewinnen, bleiben Data Warehouses weiterhin die aktuell gängigste Datenarchitekturvariante. Sie haben sich als bewährte Methode etabliert, um grosse Mengen strukturierter Daten zentral zu speichern und zu analysieren. Unternehmen schätzen ihre Zuverlässigkeit und Stabilität, die sie über die Jahre bewiesen haben. Zudem sind Data Warehouses eng mit Business Intelligence (BI)- und Analysetools integriert, was eine nahtlose Analyse der gespeicherten Daten ermöglicht.

Ein weiterer wichtiger Aspekt ist die Fähigkeit von Data Warehouses, historische Daten effizient zu speichern und zu verarbeiten. Dies ermöglicht es Unternehmen, Trends, Muster und Veränderungen im Laufe der Zeit zu identifizieren und fundierte Entscheidungen zu treffen. Die zentrale Speicherung und Verwaltung von Daten in Data Warehouses unterstützt ausserdem eine hohe Datenqualität und Konsistenz, was für Unternehmen von entscheidender Bedeutung ist. 

Moderne Data Warehouse-Technologien bieten zudem Skalierbarkeitsoptionen, die es Unternehmen ermöglichen, ihre Infrastruktur bei Bedarf zu erweitern, um mit dem Wachstum der Datenmengen Schritt zu halten. 

Architekturauswahl muss bedarfsabhängig erfolgen

Eine universelle Architektur, die für alle Anwendungsfälle und jedes Unternehmen geeignet ist, gibt es nicht. Vielmehr wird die Wahl der passenden Architektur durch eine Vielzahl von Faktoren bestimmt. Dazu gehören sowohl die aktuellen als auch die zukünftigen Use Cases, die Vielfalt der Datenlandschaft sowie die Technologien und Plattformen, die verwendet werden. Jede Organisation hat ihre eigenen Anforderungen und Herausforderungen, die eine massgeschneiderte Architektur erfordern können. Es ist daher von entscheidender Bedeutung, eine Architektur zu entwickeln, die sowohl den aktuellen als auch den zukünftigen Bedürfnissen gerecht wird und gleichzeitig flexibel genug ist, um sich an sich ändernde Anforderungen anzupassen.

  • DATA WAREHOUSE

    Technologie: DBMS 

    Plattformen: On prem oder Cloud 

    Datenquellen: Strukturiert 

    Daten Integration: Batch 

    Datenmodelle: Dimensional, data vault 

    Datenqualität: Gesicherte 

    Daten Governance: Zentral 

    Bedeutung der Metadaten: Mittel 

    Nutzung: Standardberichte, Adhoc Analysen

  • DATA LAKE

    Technologie: Obj. Stores

    Plattformen: Cloud

    Datenquellen: Alle Daten

    Daten Integration: Copy

    Datenmodelle: Schemafrei

    Datenqualität: Ungeprüft

    Daten Governance: Nicht definiert

    Bedeutung der Metadaten: Niedrig

    Nutzung: Data Science

  • Lambda/Kafka

    Technologie: Streaming

    Plattformen: On prem und/oder Cloud 

    Datenquellen: Strukturiert und semistrukturiert

    Daten Integration: Stream und Batch

    Datenmodelle: Stream und modelliert

    Datenqualität: Monitoring der Streams

    Daten Governance: Nur minimal definiert

    Bedeutung der Metadaten: Niedrig bis Mittel

    Nutzung: KI-gestützte Echtzeitanalysen

  • DATA LAKEHOUSE

    Technologie: DBMS und Obj. Stores

    Plattformen: Cloud

    Datenquellen: Hybrid

    Daten Integration: Copy und Batch

    Datenmodelle: Hybrid

    Datenqualität: Partiell gesichert

    Daten Governance: Zentral

    Bedeutung der Metadaten: Mittel

    Nutzung: Standardberichte, Adhoc Analysen, Data Science

  • DATA FABRIC

    Technologie: Data Virtuality

    Plattformen: On prem und/oder Cloud 

    Datenquellen: Strukturiert 

    Daten Integration: Virtuell

    Datenmodelle: Dimensional, data vault 

    Datenqualität: Monitoring

    Daten Governance: Hybrid

    Bedeutung der Metadaten: Hoch

    Nutzung: Standardberichte, Adhoc Analysen

  • DATA MESH

    Technologie: Unterschiedliche Formate und Data Catalogs

    Plattformen: On prem und/oder Cloud 

    Datenquellen: Hybrid

    Daten Integration: Copy, Batch, Stream

    Datenmodelle: Hybrid

    Datenqualität: Dezentral

    Daten Governance: Dezentral

    Bedeutung der Metadaten: Hoch

    Nutzung: Standardberichte, Adhoc Analysen, Data Science, KI-gestützte Echtzeitanalysen

Datenarchitekturen Übersicht

Datenarchitektur Geschichte Informatec

Als erfahrene Modern-Intelligence-Experten für ganzheitliche End-to-End Data Intelligence unterstützen wir Unternehmen bei der Auswahl und dem Aufbau einer bedarfsgerechten und zukunftsfähigen Datenarchitektur. Nehmen Sie Kontakt auf!

Unsere Datamanagement Dienstleistungen