DATA WAREHOUSE: Definizione e Come Funziona

magazzino dati
Canale dati

Possiamo facilmente definire un "data warehouse" come l'archiviazione elettronica sicura delle informazioni da parte di un'azienda o di un'altra organizzazione. Lo scopo di un data warehouse è creare un repository di dati storici che possono essere recuperati ed esaminati per fornire informazioni utili sulle attività dell'organizzazione. Esistono diverse informazioni su un data warehouse e questo articolo fungerà a sua volta da guida per fornire informazioni dettagliate su cosa si tratta, inclusi i tipi, gli strumenti coinvolti e un esempio con cui lavorare. Entriamo nel dettaglio. 

Cos'è un data warehouse?

Il data warehousing, noto anche come enterprise data warehouse (EDW), è un sistema che raccoglie i dati da diverse fonti in un unico archivio dati centrale e coerente per facilitare l'analisi dei dati, il data mining, l'intelligenza artificiale (AI) e l'apprendimento automatico. Questo termine consente a un'organizzazione di eseguire analisi complesse su enormi quantità di dati storici (petabyte e petabyte) in modi che un database normale non può.

I sistemi di data warehousing fanno parte delle soluzioni di business intelligence (BI) da più di trent'anni, ma ultimamente si sono sviluppati con l'emergere di nuovi tipi di dati e tecnologie di data hosting. Possiamo anche affermare che il data warehousing era tradizionalmente ospitato on-premise, spesso su un computer mainframe, e la sua funzionalità era incentrata sull'ottenimento di dati da varie fonti, la purificazione e la preparazione dei dati e il caricamento e il mantenimento dei dati in un database relazionale. Il data warehousing può ora essere ospitato su un'appliance dedicata o nel cloud e la maggior parte dei data warehousing include anche capacità analitiche e strumenti di visualizzazione e presentazione dei dati.

Come funziona un data warehouse

Quando le aziende hanno iniziato a fare affidamento sui sistemi informatici per creare, archiviare e recuperare documenti aziendali critici, è cresciuta la necessità di data warehousing. I ricercatori IBM Barry Devlin e Paul Murphy hanno dato origine alla nozione di archiviazione dei dati nel 1988.

Il data warehousing ha lo scopo di consentire l'esame dei dati storici. Inoltre, i dati raccolti da numerose fonti eterogenee potrebbero fornire informazioni sulle prestazioni di un'azienda. Il data warehousing ha lo scopo di consentire agli utenti di eseguire query e analisi sui dati storici generati da fonti transazionali.

I dati che vengono aggiunti al magazzino non cambiano e non possono essere modificati. Il magazzino è la fonte da cui vengono eseguite le analisi sugli eventi precedenti, con particolare attenzione ai cambiamenti nel tempo. I dati archiviati devono essere archiviati in modo sicuro, affidabile, recuperabile e gestibile.

Mantenimento di un data warehouse:

Per mantenere in funzione questo data warehouse, è necessario adottare alcune misure. L'estrazione dei dati è una fase che richiede l'ottenimento di grandi quantità di dati da numerose fonti. La pulizia dei dati è il processo di esaminare una serie di dati per errori e correggere o escludere quelli identificati dopo che è stata compilata.

I dati ripuliti vengono successivamente trasformati dal formato database al formato magazzino. Dopo essere stati archiviati nel magazzino, i dati vengono ordinati, consolidati e riepilogati per facilitarne l'utilizzo. Man mano che le varie origini dati vengono aggiornate, nel tempo vengono aggiunti ulteriori dati al magazzino.

Creazione del data warehouse di WH Inmon, un manuale pratico pubblicato per la prima volta nel 1990 e ristampato più volte, è un libro importante sul data warehousing.

Le aziende possono ora investire in servizi software di data warehousing basati su cloud di Microsoft, Google, Amazon e Oracle, tra gli altri.

Tipi di data warehouse

Esistono tre tipi principali di Data Warehouse (DWH), che sono i seguenti:

#1. Datawarehouse aziendale (EDW)

Un magazzino centralizzato è un data warehouse aziendale (EDW). Offre servizi di supporto alle decisioni in tutta l'organizzazione. Inoltre, fornisce un approccio uniforme all'organizzazione e alla rappresentazione dei dati. Consente inoltre di classificare i dati per argomento e concedere l'accesso in base a tali classificazioni.

#2. Archivio dati operativo

Quando né un data warehouse né un sistema OLTP sono in grado di soddisfare le esigenze di reporting di un'organizzazione, è necessario un data store operativo o ODS. Il data warehousing in ODS viene aggiornato in tempo reale. Di conseguenza, viene ampiamente utilizzato per attività banali come conservare i dettagli dei dipendenti.

#3. Il datamart

Un data mart è una suddivisione del data warehousing. È sviluppato specificamente per una linea di business specifica, come vendite, finanza o vendite. I dati possono essere raccolti direttamente dalle fonti in un data mart indipendente.

Quali sono i 5 componenti del data warehouse?

Esistono cinque componenti principali del data warehousing:

#1. Banca dati di magazzino

Il responsabile del magazzino è responsabile delle operazioni relative alla gestione dei dati nel magazzino. Esegue attività come l'analisi dei dati per verificare la coerenza, la creazione di indici e viste, la denormalizzazione e la generazione di aggregati, la trasformazione e l'unione dei dati di origine e l'archiviazione e il backup dei dati.

#2. Strumenti di approvvigionamento, acquisizione, pulizia e trasformazione (ETL)

Le tecnologie di origine, trasformazione e migrazione dei dati vengono utilizzate nel data warehousing per eseguire tutte le conversioni, i riepiloghi e le modifiche necessarie per trasformare i dati in un unico formato. Gli strumenti di estrazione, trasformazione e caricamento (ETL) sono un altro nome per loro.

Le loro capacità includono:

  • Anonimizza i dati secondo le disposizioni normative.
  • Eliminazione dei dati indesiderati nei database operativi dal caricamento nel data warehouse.
  • Cerca e sostituisci nomi e definizioni comuni per i dati provenienti da fonti diverse.
  • Calcolo di sintesi e dati derivati
  • In caso di dati mancanti, popolarli con valori predefiniti.
  • Dati ripetuti deduplicati provenienti da più origini dati.

Questi strumenti di estrazione, trasformazione e caricamento possono generare attività cron, processi in background, programmi COBOL, script di shell e così via che aggiornano regolarmente i dati nel sistema di data warehouse. Questi strumenti sono utili anche per la manutenzione dei metadati.

Questi strumenti ETL devono far fronte ai problemi di eterogeneità dei database e dei dati.

#3. Metadati

Il termine "metadati" evoca immagini di concetti di data warehousing tecnologico di alto livello. Tuttavia, è piuttosto semplice. I metadati sono informazioni sui dati che definiscono il sistema di data warehousing. Viene utilizzato per costruire, mantenere e gestire il data warehousing.

I metadati sono fondamentali nell'architettura di data warehousing perché identificano l'origine, l'utilizzo, i valori e gli attributi dei dati di data warehousing. Specifica inoltre come i dati vengono modificati e gestiti. È strettamente collegato al sistema di data warehousing.

Ad esempio, una riga nel database delle vendite può contenere:

4030 KJ732 299.90

Questo è un dato privo di significato fino a quando non consultiamo il Meta che ci dice che lo era

  • Numero modello: 4030
  • ID agente di vendita: KJ732
  • Importo totale delle vendite di $ 299.90

Di conseguenza, i metadati sono componenti fondamentali nella trasformazione dei dati in conoscenza.

È possibile rispondere alle seguenti domande con i metadati:

  • Quali tabelle, caratteristiche e chiavi sono presenti nel Data Warehouse?
  • Da dove provengono le informazioni?
  • Con quale frequenza vengono ricaricati i dati?
  • Quali trasformazioni purificanti sono state utilizzate?

I metadati possono essere suddivisi nelle seguenti categorie:

  • Metadati tecnici: Questo tipo di metadati comprende informazioni di magazzino utilizzate da progettisti e amministratori di data warehousing.
  • Metadati aziendali: Questo tipo di metadati contiene dettagli che consentono agli utenti finali di interpretare facilmente le informazioni contenute nel sistema di data warehousing.

#4. Strumenti di interrogazione

Uno degli obiettivi chiave del data warehousing è fornire alle organizzazioni informazioni che le aiutino a prendere decisioni strategiche. Gli utenti possono interagire con il sistema di data warehouse tramite strumenti di query. I componenti di backend sono un altro nome per i gestori di query. Gestisce tutti i processi connessi alla gestione delle richieste degli utenti. Le operazioni del componente di data warehousing consistono nell'indirizzare le query alle tabelle appropriate per la pianificazione delle query.

#5. Architettura bus del data warehouse

Il flusso di dati nel tuo magazzino è determinato dal Data Warehouse Bus. Nel sistema di data warehousing, il flusso di dati è classificato come Flusso in entrata, Flusso in salita, Flusso in discesa, Flusso in uscita e Meta flusso.

Quando crei un bus dati, tieni presente le dimensioni e i fatti condivisi tra i data mart.

Data Mart:

Un data mart è un livello di accesso utilizzato per distribuire i dati agli utenti. È promosso come una scelta praticabile per i data warehouse su larga scala perché richiede meno tempo e denaro per la costruzione. Tuttavia, non esiste una definizione universale di data mart e varia da persona a persona.

In poche parole, un data mart è una divisione di un data warehouse. Il data mart viene utilizzato per il partizionamento dei dati sviluppato per un determinato gruppo di consumatori.

Esempio di data warehouse

Per ottenere un buon esempio di questo data warehouse, si consideri un produttore di attrezzature per il fitness. Il suo prodotto più venduto è una bicicletta stazionaria e l'azienda sta pensando di ampliare il proprio portafoglio e di lanciare una nuova campagna di marketing per sostenerla.

Utilizza il suo processo di data warehousing per comprendere meglio i suoi attuali clienti. Può determinare se i suoi consumatori sono per lo più donne di età superiore ai 50 anni o ragazzi di età inferiore ai 35 anni. Inoltre, può aiutarti a saperne di più sui negozi che hanno avuto il maggior successo vendendo le loro biciclette, nonché dove si trovano . Potrebbe essere in grado di esaminare i risultati di sondaggi interni e scoprire cosa piaceva e cosa non piaceva agli ex clienti dei loro articoli.

Tutte queste informazioni aiutano l'azienda a decidere che tipo di nuovi modelli di biciclette creare e come promuoverli e pubblicizzarli. Si basa su dati concreti piuttosto che sull'istinto. Con questo esempio di data warehouse, credo che il processo sarà ora facilmente comprensibile.

Strumenti di data warehouse

Esistono numerosi strumenti di data warehouse sul mercato, ma i tipi più popolari includono:

# 1. MarkLogic

MarkLogic è uno dei tipi più popolari di strumenti di data warehouse e anche un buon esempio di una preziosa soluzione di data warehousing che utilizza una varietà di funzionalità aziendali per rendere l'integrazione dei dati più facile e veloce. Questo strumento aiuta nell'esecuzione di operazioni di ricerca estremamente complesse in un data warehouse. Può interrogare diversi tipi di dati, come documenti, relazioni e metadati.

#2. Oracolo

Oracle è il database più popolare del settore. Fornisce una gamma diversificata di soluzioni di data warehousing sia per implementazioni on-premise che cloud. Inoltre, contribuisce a migliorare le esperienze dei clienti migliorando l'efficienza operativa. Si presenta anche come uno dei tipi popolari di strumenti di data warehouse per dare una prova.

#3. Amazon RedShift

Amazon Redshift è un'applicazione di data warehousing. È uno strumento semplice ea basso costo per l'analisi di varie forme di dati utilizzando l'SQL convenzionale e gli strumenti di BI esistenti. Consente inoltre l'esecuzione di query complicate su petabyte di dati strutturati tramite la tecnica di ottimizzazione delle query.

Che cos'è un data warehouse vs un database?

Un data warehouse differisce da un database nei seguenti modi:

  • Un database è un sistema transazionale che analizza e aggiorna i dati in tempo reale per garantire che siano disponibili solo le informazioni più aggiornate.
  • Un data warehouse è progettato per raccogliere dati strutturati nel tempo.

Un database, ad esempio, può includere solo l'indirizzo più attuale di un cliente, mentre un data warehouse può memorizzare tutti gli indirizzi del cliente per i dieci anni precedenti.

Quali sono le quattro fasi del data warehousing?

Prima, le aziende iniziavano con applicazioni di data warehousing piuttosto semplici. Tuttavia, nel tempo sono emerse applicazioni di data warehousing più complesse.

Di seguito sono riportati i tipi generali di fasi nell'utilizzo di un data warehouse (DWH):

#1. Database operativo offline

A questo punto, i dati vengono semplicemente copiati da un sistema operativo all'altro. Il caricamento, l'elaborazione e il reporting dei dati copiati non hanno alcun effetto sulle prestazioni del sistema operativo.

#2. Magazzino dati offline

Il Datawarehouse riceve aggiornamenti regolari dal Database Operativo. I dati del datawarehouse vengono mappati e modificati per soddisfare gli obiettivi del datawarehouse.

#3. Data Warehouse in tempo reale

I datawarehouse vengono aggiornati in questa fase ogni volta che si verifica una transazione nel database operativo, ad esempio un sistema di prenotazione di una compagnia aerea o di un treno.

#4. Datawarehouse integrato

I DataWarehouse vengono regolarmente aggiornati a questo livello quando il sistema operativo effettua una transazione. Successivamente, il Datawarehouse genera transazioni, che vengono successivamente restituite al sistema operativo.

Quali sono le caratteristiche del data warehouse?

Orientato al soggetto, variante temporale, integrato, ed non volatile sono i quattro tipi o esempi di caratteristiche del data warehouse, comunemente note come funzionalità di data warehousing.

Quali sono le sette 7 funzioni del magazzino?

  • Archiviazione
  • Protezione delle merci
  • Trasporto di merci
  • Finanziamenti
  • Servizi con un valore monetario
  • Stabilizzazione dei prezzi
  • Gestione delle informazioni

Quali sono i due tipi di deposito?

Pubblico ed un bagno i magazzini sono i due tipi principali di magazzini.

Qual è lo scopo del data warehouse?

Il data warehousing è la raccolta centralizzata di dati che possono essere studiati per prendere decisioni migliori. I dati fluiscono regolarmente in un data warehouse da sistemi transazionali, database relazionali e altre fonti.

Quali sono le 4 funzioni di base in un magazzino?

Qualunque sia il prodotto, ogni magazzino lo sposta, lo immagazzina, lo tiene traccia e lo spedisce. Lo stoccaggio, la movimentazione dei materiali, l'imballaggio e la spedizione e le apparecchiature per codici a barre sono le quattro categorie principali di apparecchiature che derivano da queste quattro attività.

Quali sono i tre 3 Processi utilizzati in un Data Warehouse?

Il processo di Flow nel datawarehouse include i seguenti passaggi:

  • I dati devono essere estratti e caricati.
  • Pulizia e trasformazione dei dati.
  • I dati devono essere sottoposti a backup e archiviati.

Insomma

Il data warehousing è la raccolta di informazioni sull'attività di un'azienda e su come si è comportata nel tempo. È la fonte di analisi che rivela i successi e gli insuccessi passati dell'azienda e guida il processo decisionale. È stato creato con il contributo dei dipendenti in ciascuno dei suoi dipartimenti principali.

Riferimenti

Lascia un Commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *

Potrebbe piacerti anche