DATA WAREHOUSE: Definition und Funktionsweise

Data Warehousing
Datenkanal

Wir können ein „Data Warehouse“ leicht als die sichere elektronische Speicherung von Informationen durch ein Unternehmen oder eine andere Organisation definieren. Der Zweck eines Data Warehouse besteht darin, ein Repository mit historischen Daten aufzubauen, die abgerufen und untersucht werden können, um hilfreiche Einblicke in die Aktivitäten der Organisation zu geben. Es gibt vielfältige Informationen über ein Data Warehouse, und dieser Artikel dient wiederum als Leitfaden für die Bereitstellung detaillierter Informationen darüber, worum es geht, einschließlich seiner Typen, beteiligten Tools und eines Beispiels, mit dem man arbeiten kann. Gehen wir ins Detail. 

Was ist ein Data Warehouse?

Data Warehousing, auch bekannt als Enterprise Data Warehouse (EDW), ist ein System, das Daten aus mehreren Quellen in einem einzigen, zentralen, konsistenten Datenspeicher sammelt, um Datenanalyse, Data Mining, künstliche Intelligenz (KI) und maschinelles Lernen zu erleichtern. Dieser Begriff ermöglicht es einer Organisation, komplexe Analysen auf riesige Mengen historischer Daten (Petabytes und Petabytes) auf eine Weise durchzuführen, die eine normale Datenbank nicht kann.

Data-Warehousing-Systeme sind seit mehr als drei Jahrzehnten Teil von Business-Intelligence-Lösungen (BI), aber sie haben sich in letzter Zeit weiterentwickelt, als neue Datentypen und Datenhosting-Technologien auftauchten. Wir können auch sagen, dass Data Warehousing traditionell lokal gehostet wurde – oft auf einem Mainframe-Computer – und seine Funktionalität sich darauf konzentrierte, Daten aus verschiedenen Quellen zu erhalten, die Daten zu bereinigen und vorzubereiten und die Daten in eine relationale Datenbank zu laden und zu verwalten. Data Warehousing kann jetzt auf einer dedizierten Appliance oder in der Cloud untergebracht werden, und die meisten Data Warehouses umfassen auch Analysefunktionen sowie Datenvisualisierungs- und Präsentationstools.

Wie ein Data Warehouse funktioniert

Als Unternehmen begannen, sich auf Computersysteme zu verlassen, um kritische Geschäftsdokumente zu erstellen, zu archivieren und abzurufen, wuchs der Bedarf an Data Warehousing. Die IBM-Forscher Barry Devlin und Paul Murphy haben 1988 den Begriff der Datenspeicherung entwickelt.

Data Warehousing soll die Untersuchung historischer Daten ermöglichen. Außerdem können Daten, die aus zahlreichen heterogenen Quellen gesammelt wurden, einen Einblick in die Leistung eines Unternehmens geben. Data Warehousing soll es Benutzern ermöglichen, Abfragen und Analysen zu historischen Daten durchzuführen, die aus Transaktionsquellen generiert wurden.

Die Daten, die dem Warehouse hinzugefügt werden, ändern sich nicht und können nicht geändert werden. Das Warehouse ist die Quelle, aus der Analysen zu früheren Ereignissen durchgeführt werden, wobei der Schwerpunkt auf Änderungen im Laufe der Zeit liegt. Gespeicherte Daten müssen auf sichere, zuverlässige, abrufbare und verwaltbare Weise gespeichert werden.

Pflege eines Data Warehouse:

Um dieses Data Warehouse am Laufen zu halten, müssen einige Maßnahmen ergriffen werden. Die Datenextraktion ist eine Phase, die den Erhalt großer Datenmengen aus zahlreichen Quellen erfordert. Datenbereinigung ist der Prozess, einen Datensatz auf Fehler zu durchsuchen und Fehler zu beheben oder auszuschließen, die nach der Zusammenstellung identifiziert wurden.

Die bereinigten Daten werden anschließend vom Datenbankformat in das Warehousing-Format umgewandelt. Nach der Speicherung im Lager werden die Daten sortiert, konsolidiert und zusammengefasst, um sie leichter nutzbar zu machen. Da die verschiedenen Datenquellen aktualisiert werden, werden dem Warehouse im Laufe der Zeit zusätzliche Daten hinzugefügt.

WH Inmons „Creating the Data Warehouse“, ein praktisches Handbuch, das erstmals 1990 veröffentlicht und mehrfach neu aufgelegt wurde, ist ein wichtiges Buch über Data Warehousing.

Unternehmen können jetzt unter anderem in Cloud-basierte Data-Warehousing-Softwaredienste von Microsoft, Google, Amazon und Oracle investieren.

Arten von Data Warehouse

Es gibt drei Haupttypen von Data Warehouse (DWH), die wie folgt sind:

#1. Enterprise Data Warehouse (EDW)

Ein zentrales Warehouse ist ein Enterprise Data Warehouse (EDW). Es bietet Entscheidungsunterstützungsdienste in der gesamten Organisation an. Außerdem bietet es einen einheitlichen Ansatz für die Datenorganisation und -darstellung. Es ermöglicht Ihnen auch, Daten nach Thema zu kategorisieren und Zugriff auf der Grundlage dieser Klassifizierungen zu gewähren.

#2. Betriebsdatenspeicher

Wenn weder ein Data Warehouse noch ein OLTP-System die Berichtsanforderungen eines Unternehmens erfüllen können, ist ein Operational Data Store oder ODS erforderlich. Das Data Warehousing in ODS wird in Echtzeit aktualisiert. Infolgedessen wird es ausgiebig für alltägliche Aufgaben wie das Aufbewahren von Mitarbeiterdaten verwendet.

#3. Der Datamart

Ein Data Mart ist eine Unterabteilung des Data Warehousing. Es wird speziell für einen bestimmten Geschäftsbereich entwickelt, z. B. Vertrieb, Finanzen oder Vertrieb. Daten können direkt aus Quellen in einem unabhängigen Data Mart gesammelt werden.

Was sind die 5 Komponenten von Data Warehouse?

Es gibt fünf Hauptkomponenten von Data Warehousing:

#1. Lagerdatenbank

Der Lagerleiter ist für die Vorgänge im Zusammenhang mit der Datenverwaltung im Lager verantwortlich. Es führt Aufgaben wie Datenanalyse zur Überprüfung der Konsistenz, Erstellung von Indizes und Ansichten, Denormalisierung und Aggregatgenerierung, Umwandlung und Zusammenführung von Quelldaten sowie Datenarchivierung und -sicherung durch.

#2. Beschaffungs-, Akquisitions-, Bereinigungs- und Transformationstools (ETL)

Die Datenquellen-, Transformations- und Migrationstechnologien werden beim Data Warehousing verwendet, um alle Konvertierungen, Zusammenfassungen und Änderungen durchzuführen, die erforderlich sind, um Daten in ein einziges Format umzuwandeln. Tools zum Extrahieren, Transformieren und Laden (ETL) sind ein anderer Name für sie.

Zu ihren Fähigkeiten gehören:

  • Anonymisieren von Daten nach regulatorischen Vorgaben.
  • Eliminieren des Ladens unerwünschter Daten in Betriebsdatenbanken in das Data Warehouse.
  • Suchen und ersetzen Sie gebräuchliche Namen und Definitionen für Daten aus verschiedenen Quellen.
  • Berechnung von Zusammenfassungen und abgeleiteten Daten
  • Falls Daten fehlen, füllen Sie sie mit Standardwerten aus.
  • Deduplizierte wiederholte Daten, die von mehreren Datenquellen eintreffen.

Diese Tools zum Extrahieren, Transformieren und Laden können Cron-Tasks, Hintergrundjobs, COBOL-Programme, Shell-Skripte usw. generieren, die Daten im Data-Warehouse-System regelmäßig aktualisieren. Diese Tools sind auch für die Pflege von Metadaten nützlich.

Diese ETL-Tools müssen Bedenken hinsichtlich der Datenbank- und Datenheterogenität bewältigen.

#3. Metadaten

Der Begriff „Metadaten“ beschwört Bilder hochtechnologischer Data-Warehousing-Konzepte herauf. Es ist jedoch ziemlich einfach. Metadaten sind Informationen zu Daten, die das Data-Warehousing-System definieren. Es wird verwendet, um Data Warehousing aufzubauen, zu warten und zu verwalten.

Metadaten sind in der Data-Warehousing-Architektur von entscheidender Bedeutung, da sie die Quelle, Verwendung, Werte und Attribute der Data-Warehousing-Daten identifizieren. Es legt auch fest, wie Daten geändert und behandelt werden. Es ist eng mit dem Data-Warehousing-System verbunden.

Beispielsweise kann eine Zeile in der Verkaufsdatenbank Folgendes enthalten:

4030 KJ732 299.90

Dies sind bedeutungslose Daten, bis wir die Meta konsultieren, die uns sagt, dass es so war

  • Modellnummer: 4030
  • Handelsvertreter-ID: KJ732
  • Gesamtverkaufsbetrag von 299.90 $

Infolgedessen sind Metadaten entscheidende Komponenten bei der Umwandlung von Daten in Wissen.

Folgende Fragen können mit Metadaten beantwortet werden:

  • Welche Tabellen, Merkmale und Schlüssel gibt es im Data Warehouse?
  • Woher kamen die Informationen?
  • Wie oft werden Daten neu geladen?
  • Welche Reinigungstransformationen wurden verwendet?

Metadaten lassen sich in folgende Kategorien einteilen:

  • Technische Metadaten: Diese Art von Metadaten umfasst Warehouse-Informationen, die von Data-Warehousing-Designern und -Administratoren verwendet werden.
  • Geschäftsmetadaten: Diese Art von Metadaten enthält Details, die es Endbenutzern ermöglichen, die im Data-Warehousing-System enthaltenen Informationen einfach zu interpretieren.

#4. Abfrage-Tools

Eines der Hauptziele von Data Warehousing besteht darin, Organisationen Informationen zur Verfügung zu stellen, die ihnen helfen, strategische Entscheidungen zu treffen. Benutzer können über Abfragetools mit dem Data-Warehouse-System interagieren. Backend-Komponenten sind ein anderer Name für Abfragemanager. Es wickelt alle Prozesse ab, die mit der Verwaltung von Benutzeranfragen verbunden sind. Die Operationen der Data Warehousing-Komponente bestehen darin, Abfragen an die richtigen Tabellen für die Abfrageplanung zu richten.

#5. Data-Warehouse-Busarchitektur

Der Datenfluss in Ihrem Lager wird durch den Data Warehouse Bus bestimmt. Im Data-Warehousing-System wird der Datenfluss als Inflow, Upflow, Downflow, Outflow und Metaflow klassifiziert.

Denken Sie beim Erstellen eines Datenbusses an die gemeinsamen Dimensionen und Fakten in allen Data Marts.

Datamarts:

Ein Data Mart ist eine Zugriffsschicht, die verwendet wird, um Daten an Benutzer zu verteilen. Es wird als praktikable Wahl für große Data Warehouses beworben, da es weniger Zeit und Geld für den Aufbau erfordert. Es gibt jedoch keine allgemeingültige Definition eines Data Marts, und sie ist von Person zu Person unterschiedlich.

Kurz gesagt, ein Data Mart ist eine Abteilung eines Data Warehouse. Der Data Mart wird zur Datenpartitionierung verwendet, die für eine bestimmte Gruppe von Verbrauchern entwickelt wurde.

Data-Warehouse-Beispiel

Um ein gutes Beispiel für dieses Data Warehouse zu erhalten, betrachten Sie einen Hersteller von Fitnessgeräten. Sein meistverkauftes Produkt ist ein stationäres Fahrrad, und das Unternehmen denkt darüber nach, sein Portfolio zu erweitern und eine neue Marketingkampagne zu starten, um dies zu unterstützen.

Es nutzt seinen Data-Warehousing-Prozess, um seine aktuellen Kunden besser zu verstehen. Es kann feststellen, ob seine Kunden hauptsächlich Frauen über 50 oder Männer unter 35 sind. Außerdem kann es Ihnen helfen, mehr über die Geschäfte zu erfahren, die den größten Erfolg beim Verkauf ihrer Fahrräder hatten, sowie wo sie sich befinden . Es kann möglicherweise interne Umfrageergebnisse untersuchen und erfahren, was ehemaligen Kunden an ihren Artikeln gefallen und was nicht gefallen hat.

Alle diese Informationen unterstützen das Unternehmen bei der Entscheidung, welche Art von neuen Fahrradmodellen entwickelt und wie sie beworben und beworben werden sollen. Es basiert eher auf harten Daten als auf Bauchgefühl. Mit diesem Data-Warehouse-Beispiel glaube ich, dass der Prozess jetzt leicht verständlich sein wird.

Data Warehouse-Tools

Es gibt zahlreiche Data-Warehouse-Tools auf dem Markt, aber die beliebtesten Typen sind:

#1. MarkLogic

MarkLogic ist eine der beliebtesten Arten von Data-Warehouse-Tools und auch ein gutes Beispiel für eine wertvolle Data-Warehousing-Lösung, die eine Vielzahl von Unternehmensfunktionen nutzt, um die Datenintegration einfacher und schneller zu machen. Dieses Tool hilft bei der Ausführung äußerst komplexer Suchvorgänge in einem Data Warehouse. Es kann verschiedene Arten von Daten abfragen, z. B. Dokumente, Beziehungen und Metadaten.

#2. Orakel

Oracle ist die beliebteste Datenbank der Branche. Es bietet eine breite Palette von Data-Warehousing-Lösungen sowohl für lokale als auch für Cloud-Bereitstellungen. Außerdem trägt es zu besseren Kundenerlebnissen bei, indem es die betriebliche Effizienz verbessert. Es ist auch eines der beliebtesten Arten von Data-Warehouse-Tools, um es zu testen.

#3. Amazon RedShift

Amazon Redshift ist eine Data-Warehousing-Anwendung. Es ist ein unkompliziertes und kostengünstiges Tool zur Analyse verschiedener Datenformen mit herkömmlichem SQL und vorhandenen BI-Tools. Es ermöglicht auch die Ausführung komplizierter Abfragen auf Petabytes strukturierter Daten über die Abfrageoptimierungstechnik.

Was ist ein Data Warehouse im Vergleich zu einer Datenbank?

Ein Data Warehouse unterscheidet sich in folgenden Punkten von einer Datenbank:

  • Eine Datenbank ist ein Transaktionssystem, das Echtzeitdaten analysiert und aktualisiert, um sicherzustellen, dass nur die aktuellsten Informationen verfügbar sind.
  • Ein Data Warehouse ist darauf ausgelegt, strukturierte Daten im Laufe der Zeit zu sammeln.

Eine Datenbank kann beispielsweise nur die aktuellste Adresse eines Kunden enthalten, während ein Data Warehouse alle Adressen des Kunden für die letzten zehn Jahre speichern kann.

Was sind die vier Phasen des Data Warehousing?

Früher begannen Firmen mit ziemlich einfachen Data-Warehousing-Anwendungen. Im Laufe der Zeit entstanden jedoch komplexere Data-Warehousing-Anwendungen.

Im Folgenden sind die allgemeinen Arten von Stufen in einem Data Warehouse (DWH) aufgeführt:

#1. Offline-Betriebsdatenbank

An dieser Stelle werden Daten einfach von einem Betriebssystem auf ein anderes kopiert. Das Laden, Verarbeiten und Melden von kopierten Daten hat keinen Einfluss auf die Leistung des Betriebssystems.

#2. Offline-Data Warehouse

Das Datawarehouse erhält regelmäßige Updates von der Operational Database. Datawarehouse-Daten werden abgebildet und geändert, um die Datawarehouse-Ziele zu erfüllen.

#3. Echtzeit-Data Warehouse

Datawarehouses werden in diesem Schritt immer dann aktualisiert, wenn eine Transaktion in der Betriebsdatenbank auftritt, beispielsweise ein Fluglinien- oder Zugreservierungssystem.

#4. Integriertes Data Warehouse

DataWarehouses werden auf dieser Ebene regelmäßig aktualisiert, wenn das Betriebssystem eine Transaktion durchführt. Danach generiert das Datawarehouse Transaktionen, die anschließend an das operative System zurückgegeben werden.

Was sind die Merkmale von Data Warehouse?

Fachorientiert, zeitvariant, integriert, und nicht flüchtig sind die vier Typen oder Beispiele für Data-Warehouse-Merkmale, allgemein bekannt als Data-Warehousing-Features.

Was sind die sieben 7 Funktionen der Lagerhaltung?

  • Lagerung
  • Warenschutz
  • Transport von Waren
  • Finanzierung
  • Dienstleistungen mit Geldwert
  • Stabilisierung der Preise
  • Management von Informationen

Welche zwei Arten von Lagerhaltung gibt es?

Öffentliche und privat Lager sind die zwei Haupttypen von Lagern.

Was ist der Zweck des Data Warehouse?

Data Warehousing ist die zentralisierte Sammlung von Daten, die untersucht werden können, um bessere Entscheidungen zu treffen. Daten fließen regelmäßig aus Transaktionssystemen, relationalen Datenbanken und anderen Quellen in ein Data Warehouse ein.

Was sind die 4 Grundfunktionen in einem Lager?

Was auch immer das Produkt ist, jedes Lager bewegt es, lagert es, verfolgt es und versendet es. Lagerung, Materialhandhabung, Verpackung und Versand sowie Barcode-Geräte sind die vier Hauptkategorien von Geräten, die aus diesen vier Aktivitäten stammen.

Was sind die drei 3 Prozesse, die in einem Data Warehouse verwendet werden?

Der Flow-Prozess im Datawarehouse umfasst die folgenden Schritte:

  • Die Daten müssen extrahiert und geladen werden.
  • Datenbereinigung und -transformation.
  • Daten sollten gesichert und archiviert werden.

Abschließend

Data Warehousing ist die Sammlung von Informationen über das Geschäft eines Unternehmens und wie es sich im Laufe der Zeit entwickelt hat. Es ist die Quelle der Analyse, die die vergangenen Erfolge und Misserfolge des Unternehmens offenlegt und die Entscheidungsfindung leitet. Es wurde mit Beiträgen von Mitarbeitern in allen Kernabteilungen erstellt.

Bibliographie

Hinterlassen Sie uns einen Kommentar

E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind MIT * gekennzeichnet. *

Das Könnten Sie Auch Interessieren