DATA WAREHOUSE: Definição e Como Funciona

Armazém de dados
canal de dados

Podemos definir prontamente um “armazém de dados” como o armazenamento eletrônico seguro de informações por uma empresa ou outra organização. A finalidade de um data warehouse é construir um repositório de dados históricos que possam ser recuperados e examinados para fornecer informações úteis sobre as atividades da organização. Há diversas informações sobre um data warehouse e este artigo, por sua vez, servirá como um guia para fornecer informações detalhadas sobre o que é, incluindo seus tipos, ferramentas envolvidas e um exemplo para trabalhar. Vamos entrar em detalhes. 

O que é um Data Warehouse?

Data warehousing, também conhecido como Enterprise Data Warehousing (EDW), é um sistema que coleta dados de várias fontes em um armazenamento de dados único, central e consistente para facilitar a análise de dados, mineração de dados, inteligência artificial (IA) e aprendizado de máquina. Este termo permite que uma organização execute análises complexas em grandes quantidades de dados históricos (petabytes e petabytes) de maneiras que um banco de dados regular não pode.

Os sistemas de armazenamento de dados fazem parte das soluções de business intelligence (BI) há mais de três décadas, mas se desenvolveram recentemente à medida que surgiram novos tipos de dados e tecnologias de hospedagem de dados. Também podemos dizer que o armazenamento de dados era tradicionalmente hospedado no local - geralmente em um computador mainframe - e sua funcionalidade centrada na obtenção de dados de várias fontes, purificação e preparação dos dados e carregamento e manutenção dos dados em um banco de dados relacional. O armazenamento de dados agora pode ser alojado em um dispositivo dedicado ou na nuvem, e a maioria dos armazenamentos de dados também inclui recursos analíticos, bem como visualização de dados e ferramentas de apresentação.

Como funciona um data warehouse

Quando as empresas começaram a depender de sistemas de computador para criar, arquivar e recuperar documentos comerciais críticos, a necessidade de armazenamento de dados aumentou. Os pesquisadores da IBM Barry Devlin e Paul Murphy originaram a noção de armazenamento de dados em 1988.

O armazenamento de dados destina-se a permitir o exame de dados históricos. Além disso, dados coletados de várias fontes heterogêneas podem fornecer informações sobre o desempenho de uma empresa. O armazenamento de dados destina-se a permitir que os usuários executem consultas e análises em dados históricos gerados a partir de fontes transacionais.

Os dados adicionados ao warehouse não são alterados e não podem ser alterados. O warehouse é a fonte a partir da qual são feitas as análises de eventos anteriores, com foco nas mudanças ao longo do tempo. Os dados armazenados devem ser armazenados de maneira segura, confiável, recuperável e gerenciável.

Mantendo um Data Warehouse:

Para manter esse data warehouse funcionando, algumas medidas devem ser tomadas. A extração de dados é uma fase que requer a obtenção de grandes quantidades de dados de várias fontes. A limpeza de dados é o processo de passar por um conjunto de dados em busca de erros e corrigir ou excluir qualquer um que seja identificado após a compilação.

Os dados limpos são subsequentemente transformados do formato de banco de dados para o formato de armazenamento. Depois de armazenados no warehouse, os dados são classificados, consolidados e resumidos para facilitar sua utilização. Conforme as várias fontes de dados são atualizadas, dados adicionais são adicionados ao warehouse ao longo do tempo.

O livro Creating the Data Warehouse, de WH Inmon, um manual prático publicado pela primeira vez em 1990 e reeditado várias vezes, é um livro importante sobre armazenamento de dados.

As empresas agora podem investir em serviços de software de armazenamento de dados baseados em nuvem da Microsoft, Google, Amazon e Oracle, entre outros.

Tipos de data warehouse

Existem três tipos principais de Data Warehouse (DWH), que são os seguintes:

#1. Data Warehouse Corporativo (EDW)

Um warehouse centralizado é um data warehouse empresarial (EDW). Oferece serviços de apoio à decisão em toda a organização. Além disso, fornece uma abordagem uniforme para organização e representação de dados. Ele também permite que você categorize os dados por assunto e conceda acesso com base nessas classificações.

#2. Armazenamento de dados operacionais

Quando nem um data warehouse nem um sistema OLTP podem atender às necessidades de relatórios de uma organização, é necessário um armazenamento de dados operacionais, ou ODS. O armazenamento de dados no ODS é atualizado em tempo real. Como resultado, é amplamente usado para tarefas mundanas, como manter os detalhes dos funcionários.

#3. O Data Mart

Um data mart é uma subdivisão do armazenamento de dados. Ele é desenvolvido especificamente para uma linha de negócios específica, como vendas, finanças ou vendas. Os dados podem ser coletados diretamente de fontes em um data mart independente.

Quais são os 5 componentes do Data Warehouse?

Existem cinco principais componentes de armazenamento de dados:

#1. banco de dados do armazém

O gerente do warehouse é responsável pelas operações relacionadas ao gerenciamento de dados no warehouse. Ele executa tarefas como análise de dados para verificar consistência, construção de índice e exibição, desnormalização e geração agregada, transformação e fusão de dados de origem e arquivamento e backup de dados.

#2. Ferramentas de Sourcing, Aquisição, Limpeza e Transformação (ETL)

As tecnologias de fonte de dados, transformação e migração são usadas no armazenamento de dados para realizar todas as conversões, resumos e alterações necessárias para transformar os dados em um único formato. As ferramentas Extrair, Transformar e Carregar (ETL) são outro nome para elas.

Suas capacidades incluem:

  • Torne os dados anônimos de acordo com as estipulações regulatórias.
  • Eliminando o carregamento de dados indesejados em bancos de dados operacionais no data warehouse.
  • Pesquise e substitua nomes e definições comuns para dados provenientes de diferentes fontes.
  • Calculando resumos e dados derivados
  • Em caso de dados ausentes, preencha-os com os padrões.
  • Dados repetidos desduplicados que chegam de várias fontes de dados.

Essas ferramentas Extrair, Transformar e Carregar podem gerar tarefas cron, trabalhos em segundo plano, programas COBOL, scripts de shell e assim por diante que atualizam dados no sistema de data warehouse regularmente. Essas ferramentas também são úteis para manutenção de metadados.

Essas ferramentas ETL devem lidar com problemas de heterogeneidade de banco de dados e dados.

#3. Metadados

O termo “metadados” evoca imagens de conceitos tecnológicos de armazenamento de dados de alto nível. É, no entanto, bastante simples. Metadados são informações sobre dados que definem o sistema de armazenamento de dados. Ele é usado para construir, manter e gerenciar armazenamento de dados.

Os metadados são vitais na arquitetura de armazenamento de dados porque identificam a origem, o uso, os valores e os atributos dos dados de armazenamento de dados. Também especifica como os dados são alterados e manipulados. Está intimamente ligado ao sistema de armazenamento de dados.

Por exemplo, uma linha no banco de dados de vendas pode conter:

4030 KJ732 299.90

Este é um dado sem sentido até consultarmos o Meta que nos diz que foi

  • Número do modelo: 4030
  • ID do agente de vendas: KJ732
  • Valor total de vendas de $ 299.90

Como resultado, os metadados são componentes críticos na transformação de dados em conhecimento.

As seguintes perguntas podem ser respondidas com metadados:

  • Quais tabelas, características e chaves existem no Data Warehouse?
  • De onde veio a informação?
  • Com que frequência os dados são recarregados?
  • Que transformações de limpeza foram usadas?

Os metadados podem ser divididos nas seguintes categorias:

  • Metadados Técnicos: Esse tipo de metadados compreende informações de warehouse usadas por designers e administradores de data warehouse.
  • Metadados de Negócios: Este tipo de metadados contém detalhes que permitem aos usuários finais interpretar facilmente as informações armazenadas no sistema de armazenamento de dados.

#4. Ferramentas de consulta

Um dos principais objetivos do armazenamento de dados é fornecer às organizações informações para ajudá-las a tomar decisões estratégicas. Os usuários podem interagir com o sistema de data warehouse por meio de ferramentas de consulta. Componentes de back-end são outro nome para gerenciadores de consulta. Ele lida com todos os processos conectados à administração de solicitações do usuário. As operações do componente de armazenamento de dados são para direcionar consultas para as tabelas apropriadas para agendamento de consultas.

#5. Armazém de dados Arquitetura de barramento

O fluxo de dados em seu warehouse é determinado pelo Barramento do Data Warehouse. No sistema de armazenamento de dados, o fluxo de dados é classificado como Inflow, Upflow, Downflow, Outflow e Metaflow.

Ao criar um barramento de dados, lembre-se das dimensões e fatos compartilhados entre os data marts.

Datamarts:

Um data mart é uma camada de acesso usada para distribuir dados aos usuários. Ele é promovido como uma opção viável para data warehouses de grande escala porque requer menos tempo e dinheiro para ser construído. No entanto, não existe uma definição universal de um data mart e varia de pessoa para pessoa.

Em poucas palavras, um data mart é uma divisão de um data warehouse. O data mart é utilizado para o particionamento de dados desenvolvido para um determinado grupo de consumidores.

Exemplo de Data Warehouse

Para obter um bom exemplo desse data warehouse, considere um fabricante de equipamentos de ginástica. Seu produto mais vendido é uma bicicleta ergométrica, e a empresa está pensando em ampliar seu portfólio e lançar uma nova campanha de marketing para apoiá-lo.

Ela usa seu processo de armazenamento de dados para entender melhor seus clientes atuais. Ele pode determinar se seus consumidores são principalmente mulheres com mais de 50 anos ou homens com menos de 35 anos. Além disso, pode ajudá-lo a aprender mais sobre as lojas que tiveram maior sucesso vendendo suas bicicletas, bem como onde estão localizadas. . Pode ser capaz de examinar os resultados da pesquisa interna e saber o que os clientes anteriores gostaram e não gostaram em seus itens.

Todas essas informações ajudam a empresa a decidir que tipo de novo modelo de bicicleta criar e como promovê-lo e anunciá-lo. É baseado em dados concretos em vez de instinto. Com este exemplo de data warehouse, acredito que o processo agora será facilmente compreensível.

Ferramentas de armazenamento de dados

Existem inúmeras ferramentas de data warehouse no mercado, mas os tipos mais populares incluem:

#1. MarkLogic

O MarkLogic é um dos tipos mais populares de ferramentas de data warehouse e também um bom exemplo de uma valiosa solução de data warehouse que usa uma variedade de recursos empresariais para tornar a integração de dados mais fácil e rápida. Essa ferramenta auxilia na execução de operações de pesquisa extremamente complexas em um data warehouse. Ele pode consultar vários tipos de dados, como documentos, relacionamentos e metadados.

# 2. Oráculo

Oracle é o banco de dados mais popular do setor. Ele fornece uma gama diversificada de soluções de armazenamento de dados para implantações no local e na nuvem. Além disso, contribui para uma melhor experiência do cliente, aumentando a eficiência operacional. Ele também vem como um dos tipos populares de ferramentas de data warehouse para testar.

#3. Amazon RedShift

O Amazon Redshift é um aplicativo de armazenamento de dados. É uma ferramenta direta e de baixo custo para analisar várias formas de dados usando SQL convencional e ferramentas de BI existentes. Ele também permite a execução de consultas complicadas em petabytes de dados estruturados por meio da técnica de otimização de consultas.

O que é Data Warehouse vs Banco de Dados?

Um data warehouse difere de um banco de dados das seguintes maneiras:

  • Um banco de dados é um sistema transacional que analisa e atualiza dados em tempo real para garantir que apenas as informações mais atualizadas estejam disponíveis.
  • Um data warehouse é projetado para coletar dados estruturados ao longo do tempo.

Um banco de dados, por exemplo, pode incluir apenas o endereço mais atual de um cliente, enquanto um data warehouse pode armazenar todos os endereços do cliente nos últimos dez anos.

Quais são os quatro estágios do armazenamento de dados?

Antes, as empresas começavam com aplicativos de armazenamento de dados bastante simples. No entanto, aplicativos de armazenamento de dados mais complexos surgiram com o tempo.

A seguir estão os tipos gerais de estágios em um data warehouse (DWH):

#1. Banco de dados operacional off-line

Neste ponto, os dados são simplesmente copiados de um sistema operacional para outro. O carregamento, o processamento e o relatório de dados copiados não afetam o desempenho do sistema operacional.

#2. Armazém de dados offline

O Datawarehouse recebe atualizações regulares do Banco de Dados Operacional. Os dados do Datawarehouse são mapeados e alterados para cumprir os objetivos do Datawarehouse.

#3. Data Warehouse em tempo real

Os datawarehouses são atualizados nesta etapa sempre que ocorre uma transação no banco de dados operacional, por exemplo, um sistema de reservas de passagens aéreas ou trens.

#4. Armazém de Dados Integrado

DataWarehouses são atualizados regularmente neste nível quando o sistema operacional faz uma transação. Em seguida, o Datawarehouse gera as transações, que posteriormente são devolvidas ao sistema operacional.

Quais são as características do Data Warehouse?

Orientado para o assunto, variável no tempo, integrado, e não volátil são os quatro tipos ou exemplos de características de data warehouse, comumente conhecidas como recursos de data warehouse.

Quais são as sete 7 funções do armazenamento?

  • Armazenamento
  • Proteção de Mercadorias
  • Transporte de Mercadorias
  • financiamento
  • Serviços com valor monetário
  • Estabilização de Preços
  • Gestão de Informação

Quais são os dois tipos de armazenamento?

Público e privado armazéns são os dois principais tipos de armazéns.

Qual é a finalidade do Data Warehouse?

Data warehousing é a coleção centralizada de dados que podem ser estudados para tomar melhores decisões. Os dados fluem para um data warehouse regularmente a partir de sistemas transacionais, bancos de dados relacionais e outras fontes.

Quais são as 4 Funções Básicas em um Armazém?

Seja qual for o produto, cada armazém o movimenta, armazena, monitora e despacha. Armazenamento, manuseio de materiais, embalagem e transporte e equipamentos de código de barras são as quatro principais categorias de equipamentos provenientes dessas quatro atividades.

Quais são os três 3 Processos usados ​​em um Data Warehouse?

O processo de Flow no datawarehouse inclui as seguintes etapas:

  • Os dados devem ser extraídos e carregados.
  • Limpeza e transformação de dados.
  • Os dados devem ser copiados e arquivados.

Em conclusão

O armazenamento de dados é a coleta de informações sobre os negócios de uma empresa e como ela se comportou ao longo do tempo. É a fonte de análise que revela as conquistas e fracassos passados ​​da empresa e orienta a tomada de decisões. Foi criado com a contribuição de funcionários de cada um de seus departamentos centrais.

Referências

Deixe um comentário

O seu endereço de e-mail não será publicado. Os campos obrigatórios são marcados com *

Você pode gostar