ENTREPÔT DE DONNÉES : définition et fonctionnement

Entreposage De Données
Canal de données

Nous pouvons facilement définir un « entrepôt de données » comme le stockage électronique sécurisé d'informations par une entreprise ou une autre organisation. Le but d'un entrepôt de données est de créer un référentiel de données historiques qui peuvent être récupérées et examinées pour fournir un aperçu utile des activités de l'organisation. Il existe diverses informations sur un entrepôt de données et cet article servira à son tour de guide pour fournir des informations détaillées sur ce dont il s'agit, y compris ses types, les outils impliqués et un exemple avec lequel travailler. Entrons dans le détail. 

Qu'est-ce qu'un entrepôt de données?

L'entreposage de données, également connu sous le nom d'entrepôt de données d'entreprise (EDW), est un système qui collecte des données provenant de plusieurs sources dans un stockage de données unique, central et cohérent pour faciliter l'analyse des données, l'exploration de données, l'intelligence artificielle (IA) et l'apprentissage automatique. Ce terme permet à une organisation d'exécuter des analyses complexes sur des quantités massives de données historiques (pétaoctets et pétaoctets) d'une manière qu'une base de données ordinaire ne peut pas.

Les systèmes d'entreposage de données font partie des solutions de Business Intelligence (BI) depuis plus de trois décennies, mais ils se sont récemment développés à mesure que de nouveaux types de données et de nouvelles technologies d'hébergement de données sont apparus. Nous pouvons également dire que l'entreposage de données était traditionnellement hébergé sur site - souvent sur un ordinateur central - et que sa fonctionnalité était centrée sur l'obtention de données à partir de diverses sources, la purification et la préparation des données, ainsi que le chargement et la maintenance des données dans une base de données relationnelle. L'entreposage de données peut désormais être hébergé sur une appliance dédiée ou dans le cloud, et la plupart des entrepôts de données incluent également des capacités d'analyse ainsi que des outils de visualisation et de présentation des données.

Comment fonctionne un entrepôt de données

Lorsque les entreprises ont commencé à s'appuyer sur des systèmes informatiques pour créer, classer et récupérer des documents commerciaux critiques, le besoin d'entreposage de données s'est accru. Les chercheurs d'IBM Barry Devlin et Paul Murphy ont lancé la notion de stockage de données en 1988.

L'entreposage de données est destiné à permettre l'examen des données historiques. De plus, les données recueillies auprès de nombreuses sources hétérogènes peuvent donner un aperçu des performances d'une entreprise. L'entreposage de données est destiné à permettre aux utilisateurs d'effectuer des requêtes et des analyses sur les données historiques générées à partir de sources transactionnelles.

Les données ajoutées à l'entrepôt ne changent pas et ne peuvent pas être modifiées. L'entrepôt est la source à partir de laquelle les analyses sur les événements antérieurs sont effectuées, en mettant l'accent sur les changements au fil du temps. Les données entreposées doivent être stockées de manière sécurisée, fiable, récupérable et gérable.

Maintenir un entrepôt de données :

Pour que cet entrepôt de données continue de fonctionner, certaines mesures doivent être prises. L'extraction de données est une phase qui nécessite l'obtention de grandes quantités de données à partir de nombreuses sources. Le nettoyage des données est le processus consistant à parcourir un ensemble de données à la recherche d'erreurs et à corriger ou exclure celles qui sont identifiées après leur compilation.

Les données nettoyées sont ensuite transformées du format de base de données au format d'entreposage. Après avoir été stockées dans l'entrepôt, les données sont triées, consolidées et résumées pour en faciliter l'utilisation. Au fur et à mesure que les différentes sources de données sont mises à jour, des données supplémentaires sont ajoutées à l'entrepôt au fil du temps.

Création de l'entrepôt de données de WH Inmon, un manuel pratique publié pour la première fois en 1990 et réédité plusieurs fois, est un livre important sur l'entreposage de données.

Les entreprises peuvent désormais investir dans des services logiciels d'entreposage de données basés sur le cloud de Microsoft, Google, Amazon et Oracle, entre autres.

Types d'entrepôt de données

Il existe trois principaux types d'entrepôt de données (DWH), qui sont les suivants :

#1. Entrepôt de données d'entreprise (EDW)

Un entrepôt centralisé est un entrepôt de données d'entreprise (EDW). Il offre des services d'aide à la décision dans toute l'organisation. En outre, il fournit une approche uniforme de l'organisation et de la représentation des données. Il vous permet également de classer les données par sujet et d'accorder l'accès en fonction de ces classifications.

#2. Magasin de données opérationnelles

Lorsque ni un entrepôt de données ni un système OLTP ne peuvent répondre aux besoins de création de rapports d'une organisation, un magasin de données opérationnelles, ou ODS, est requis. L'entreposage de données dans ODS est actualisé en temps réel. En conséquence, il est largement utilisé pour des tâches banales telles que la conservation des détails des employés.

#3. Le magasin de données

Un magasin de données est une subdivision de l'entreposage de données. Il est spécifiquement développé pour un secteur d'activité spécifique, tel que les ventes, la finance ou les ventes. Les données peuvent être collectées directement à partir de sources dans un magasin de données indépendant.

Quels sont les 5 composants du Data Warehouse ?

Il existe cinq principaux composants d'entreposage de données :

#1. Base de données de l'entrepôt

Le responsable d'entrepôt est en charge des opérations liées à la gestion des données dans l'entrepôt. Il effectue des tâches telles que l'analyse des données pour vérifier la cohérence, la création d'index et de vues, la dénormalisation et la génération d'agrégats, la transformation et la fusion des données sources, ainsi que l'archivage et la sauvegarde des données.

#2. Outils d'approvisionnement, d'acquisition, de nettoyage et de transformation (ETL)

Les technologies de source de données, de transformation et de migration sont utilisées dans l'entreposage de données pour effectuer toutes les conversions, synthèses et modifications nécessaires pour transformer les données en un format unique. Les outils d'extraction, de transformation et de chargement (ETL) sont un autre nom pour eux.

Leurs capacités incluent :

  • Anonymiser les données conformément aux stipulations réglementaires.
  • Élimination des données indésirables dans les bases de données opérationnelles du chargement dans l'entrepôt de données.
  • Recherchez et remplacez les noms communs et les définitions des données provenant de différentes sources.
  • Calcul des résumés et des données dérivées
  • En cas de données manquantes, remplissez-les avec les valeurs par défaut.
  • Données répétées dédupliquées provenant de plusieurs sources de données.

Ces outils d'extraction, de transformation et de chargement peuvent générer des tâches cron, des tâches en arrière-plan, des programmes COBOL, des scripts shell, etc., qui mettent régulièrement à jour les données dans le système d'entrepôt de données. Ces outils sont également utiles pour la maintenance des métadonnées.

Ces outils ETL doivent faire face aux problèmes d'hétérogénéité des bases de données et des données.

#3. Métadonnées

Le terme « métadonnées » évoque des images de concepts d'entreposage de données technologiques de haut niveau. C'est cependant assez simple. Les métadonnées sont des informations sur les données qui définissent le système d'entreposage de données. Il est utilisé pour construire, maintenir et gérer l'entreposage de données.

Les métadonnées sont essentielles dans l'architecture de l'entrepôt de données car elles identifient la source, l'utilisation, les valeurs et les attributs des données de l'entrepôt de données. Il précise également comment les données sont modifiées et traitées. Il est étroitement lié au système d'entreposage de données.

Par exemple, une ligne de la base de données des ventes peut contenir :

4030 KJ732 299.90

C'est une donnée dénuée de sens jusqu'à ce que nous consultions le Meta qui nous dit que c'était

  • Numéro de modèle: 4030
  • ID de l'agent commercial : KJ732
  • Montant total des ventes de 299.90 $

En conséquence, les métadonnées sont des composants essentiels dans la transformation des données en connaissances.

Les questions suivantes peuvent être répondues avec des métadonnées :

  • Quelles tables, caractéristiques et clés y a-t-il dans l'entrepôt de données ?
  • D'où viennent les informations ?
  • À quelle fréquence les données sont-elles rechargées ?
  • Quelles transformations de nettoyage ont été utilisées ?

Les métadonnées peuvent être divisées dans les catégories suivantes :

  • Métadonnées techniques : Ce type de métadonnées comprend des informations d'entrepôt utilisées par les concepteurs et les administrateurs d'entrepôts de données.
  • Métadonnées commerciales: Ce type de métadonnées contient des détails qui permettent aux utilisateurs finaux d'interpréter facilement les informations hébergées dans le système d'entreposage de données.

#4. Outils de requête

L'un des principaux objectifs de l'entreposage de données est de fournir aux organisations des informations pour les aider à prendre des décisions stratégiques. Les utilisateurs peuvent interagir avec le système d'entrepôt de données via des outils de requête. Les composants backend sont un autre nom pour les gestionnaires de requêtes. Il gère tous les processus liés à l'administration des demandes des utilisateurs. Les opérations du composant d'entreposage de données consistent à diriger les requêtes vers les tables appropriées pour la planification des requêtes.

#5. Architecture de bus d'entrepôt de données

Le flux de données dans votre entrepôt est déterminé par le Data Warehouse Bus. Dans le système d'entreposage de données, le flux de données est classé comme Inflow, Upflow, Downflow, Outflow et Meta flow.

Lors de la création d'un bus de données, gardez à l'esprit les dimensions et les faits partagés entre les magasins de données.

Datamarts:

Un magasin de données est une couche d'accès utilisée pour distribuer des données aux utilisateurs. Il est présenté comme un choix viable pour les entrepôts de données à grande échelle car sa construction nécessite moins de temps et d'argent. Pourtant, il n'y a pas de définition universelle d'un data mart, et cela varie d'une personne à l'autre.

En un mot, un magasin de données est une division d'un entrepôt de données. Le magasin de données est utilisé pour le partitionnement des données développé pour un certain groupe de consommateurs.

Exemple d'entrepôt de données

Pour obtenir un bon exemple de cet entrepôt de données, considérons un fabricant d'équipements de fitness. Son produit le plus vendu est un vélo stationnaire, et l'entreprise envisage d'étendre son portefeuille et de lancer une nouvelle campagne de marketing pour le soutenir.

Il utilise son processus d'entreposage de données pour mieux comprendre ses clients actuels. Il peut déterminer si ses consommateurs sont principalement des femmes de plus de 50 ans ou des hommes de moins de 35 ans. De plus, cela peut vous aider à en savoir plus sur les magasins qui ont eu le plus de succès dans la vente de leurs vélos, ainsi que sur leur emplacement. . Il peut être en mesure d'examiner les résultats d'enquêtes internes et de savoir ce que les anciens clients ont aimé et n'ont pas aimé à propos de leurs articles.

Toutes ces informations aident la société à décider quel type de nouveau modèle de vélos créer et comment les promouvoir et les annoncer. Il est basé sur des données concrètes plutôt que sur l'instinct. Avec cet exemple d'entrepôt de données, je pense que le processus sera désormais facilement compréhensible.

Outils d'entrepôt de données

Il existe de nombreux outils d'entrepôt de données sur le marché, mais les types les plus populaires incluent :

#1. MarkLogique

MarkLogic est l'un des types d'outils d'entrepôt de données les plus populaires et également un bon exemple d'une solution d'entreposage de données précieuse qui utilise une variété de fonctionnalités d'entreprise pour rendre l'intégration des données plus facile et plus rapide. Cet outil facilite l'exécution d'opérations de recherche extrêmement complexes dans un entrepôt de données. Il peut interroger plusieurs types de données, telles que des documents, des relations et des métadonnées.

#2. Oracle

Oracle est la base de données la plus populaire de l'industrie. Il fournit une gamme variée de solutions d'entreposage de données pour les déploiements sur site et dans le cloud. En outre, il contribue à de meilleures expériences client en améliorant l'efficacité opérationnelle. Il s'agit également de l'un des types populaires d'outils d'entrepôt de données à tester.

#3. Amazon RedShift

Amazon Redshift est une application d'entreposage de données. Il s'agit d'un outil simple et peu coûteux pour analyser diverses formes de données à l'aide de SQL conventionnel et d'outils de BI existants. Il permet également l'exécution de requêtes complexes sur des pétaoctets de données structurées via la technique d'optimisation des requêtes.

Qu'est-ce qu'un entrepôt de données ou une base de données ?

Un entrepôt de données diffère d'une base de données sur les points suivants :

  • Une base de données est un système transactionnel qui analyse et met à jour les données en temps réel pour s'assurer que seules les informations les plus récentes sont disponibles.
  • Un entrepôt de données est conçu pour collecter des données structurées au fil du temps.

Une base de données, par exemple, peut simplement inclure l'adresse la plus récente d'un client, alors qu'un entrepôt de données peut stocker toutes les adresses du client pour les dix années précédentes.

Quelles sont les quatre étapes de l'entreposage de données ?

Auparavant, les entreprises commençaient avec des applications d'entreposage de données assez simples. Pourtant, des applications d'entreposage de données plus complexes sont apparues au fil du temps.

Voici les types généraux d'étapes dans l'utilisation d'un entrepôt de données (DWH) :

#1. Base de données opérationnelle hors ligne

À ce stade, les données sont simplement copiées d'un système d'exploitation à un autre. Le chargement, le traitement et la génération de rapports sur les données copiées n'ont aucun effet sur les performances du système opérationnel.

#2. Entrepôt de données hors ligne

L'entrepôt de données reçoit des mises à jour régulières de la base de données opérationnelle. Les données de l'entrepôt de données sont cartographiées et modifiées pour atteindre les objectifs de l'entrepôt de données.

#3. Entrepôt de données en temps réel

Les entrepôts de données sont mis à jour à cette étape chaque fois qu'une transaction se produit dans la base de données opérationnelle, par exemple, un système de réservation de compagnie aérienne ou de train.

#4. Entrepôt de données intégré

Les DataWarehouses sont régulièrement mis à jour à ce niveau lorsque le système d'exploitation effectue une transaction. Après cela, le Datawarehouse génère des transactions, qui sont ensuite restituées au système opérationnel.

Quelles sont les caractéristiques d'un entrepôt de données ?

Axé sur le sujet, variant dans le temps, intégré, ainsi que non volatile sont les quatre types ou exemples de caractéristiques d'entrepôt de données, communément appelées fonctionnalités d'entreposage de données.

Quelles sont les sept 7 fonctions de l'entreposage ?

  • Stockage
  • Protection des marchandises
  • Transport de marchandises
  • Financements
  • Services à valeur monétaire
  • Stabilisation des prix
  • Gestion de l'information

Quels sont les deux types d'entreposage ?

public ainsi que Privé les entrepôts sont les deux principaux types d'entrepôts.

Quel est le but de l'entrepôt de données ?

L'entreposage de données est la collecte centralisée de données qui peuvent être étudiées pour prendre de meilleures décisions. Les données circulent régulièrement dans un entrepôt de données à partir de systèmes transactionnels, de bases de données relationnelles et d'autres sources.

Quelles sont les 4 fonctions de base dans un entrepôt ?

Quel que soit le produit, chaque entrepôt le déplace, le stocke, en assure le suivi et l'expédie. Les équipements d'entreposage, de manutention, d'emballage et d'expédition et les codes-barres sont les quatre principales catégories d'équipements issus de ces quatre activités.

Quels sont les trois processus 3 utilisés dans un entrepôt de données ?

Le processus de Flow dans l'entrepôt de données comprend les étapes suivantes :

  • Les données doivent être extraites et chargées.
  • Nettoyage et transformation des données.
  • Les données doivent être sauvegardées et archivées.

En conclusion

L'entreposage de données est la collecte d'informations sur les activités d'une entreprise et ses performances au fil du temps. C'est la source d'analyse qui révèle les réalisations et les échecs passés de l'entreprise et guide la prise de décision. Il a été créé avec la contribution des employés de chacun de ses principaux départements.

Bibliographie

Soyez sympa! Laissez un commentaire

Votre adresse email n'apparaitra pas. Les champs obligatoires sont marqués *

Vous aimeriez aussi