数据仓库:定义及其工作原理

数据仓库
数据通道

我们可以轻松地将“数据仓库”定义为企业或其他组织对信息的安全电子存储。 数据仓库的目的是建立一个历史数据的存储库,可以检索和检查这些数据以提供对组织活动的有用见解。 关于数据仓库的信息多种多样,而本文将反过来作为指南,提供关于它的全部内容的详细信息,包括它的类型、涉及的工具和使用的示例。 让我们进入细节。 

什么是数据仓库?

数据仓库,也称为企业数据仓库 (EDW),是一种将来自多个来源的数据收集到单一、中央、一致的数据存储中以促进数据分析、数据挖掘、人工智能 (AI) 和机器学习的系统。 该术语使组织能够以常规数据库无法实现的方式对大量历史数据(PB 和 PB)执行复杂分析。

三十多年来,数据仓库系统一直是商业智能 (BI) 解决方案的一部分,但随着新数据类型和数据托管技术的出现,它们最近得到了发展。 我们也可以说,数据仓库传统上托管在本地——通常在大型计算机上——其功能集中在从各种来源获取数据、净化和准备数据,以及在关系数据库中加载和维护数据。 数据仓库现在可能位于专用设备或云中,而且大多数数据仓库还包括分析功能以及数据可视化和演示工具。

数据仓库的工作原理

当企业开始依赖计算机系统来创建、归档和检索关键业务文档时,对数据仓库的需求就增长了。 IBM 研究人员 Barry Devlin 和 Paul Murphy 于 1988 年提出了数据存储的概念。

数据仓库旨在允许检查历史数据。 此外,从众多不同来源收集的数据可能会提供对公司绩效的洞察力。 数据仓库旨在使用户能够对从事务源生成的历史数据执行查询和分析。

添加到仓库的数据不会改变,也不能改变。 仓库是对先前事件进行分析的来源,重点是随着时间的推移发生的变化。 仓库数据必须以安全、可靠、可检索和可管理的方式存储。

维护数据仓库:

为了保持这个数据仓库的运行,必须采取一些措施。 数据提取是一个需要从众多来源获取大量数据的阶段。 数据清理是检查一组数据以查找错误并修复或排除编译后发现的任何错误的过程。

清理后的数据随后从数据库格式转换为仓库格式。 数据入库后,经过整理、归并、汇总,便于利用。 随着各种数据源的更新,额外的数据会随着时间的推移添加到仓库中。

WH Inmon 的 Creating the Data Warehouse 是一本实用手册,于 1990 年首次出版并多次再版,是一本关于数据仓库的重要书籍。

企业现在可以投资 Microsoft、Google、Amazon 和 Oracle 等公司提供的基于云的数据仓库软件服务。

数据仓库的类型

数据仓库(DWH)主要有以下三种类型:

#1。 企业数据仓库 (EDW)

集中式仓库是​​企业数据仓库 (EDW)。 它为整个组织提供决策支持服务。 此外,它还提供了一种统一的数据组织和表示方法。 它还允许您按主题对数据进行分类,并根据这些分类授予访问权限。

#2。 运营数据存储

当数据仓库和 OLTP 系统都不能满足组织的报告需求时,就需要操作数据存储或 ODS。 ODS 中的数据仓库是实时刷新的。 因此,它被广泛用于日常任务,例如保存员工详细信息。

#3。 数据集市

数据集市是数据仓库的细分。 它是专门为特定业务线开发的,例如销售、财务或销售。 数据可以直接从独立数据集市的来源收集。

数据仓库的 5 个组件是什么?

有五个主要的数据仓库组件:

#1。 仓库数据库

仓库管理员负责仓库中与数据管理相关的操作。 它执行数据分析以验证一致性、索引和视图构建、反规范化和聚合生成、源数据转换和合并以及数据归档和备份等任务。

#2。 采购、采购、清理和转换工具 (ETL)

数据仓库中使用数据源、转换和迁移技术来完成将数据转换为单一格式所需的所有转换、汇总和更改。 提取、转换和加载 (ETL) 工具是它们的另一个名称。

他们的能力包括:

  • 根据监管规定匿名化数据。
  • 消除操作数据库中不需要的数据加载到数据仓库中。
  • 搜索和替换来自不同来源的数据的通用名称和定义。
  • 计算摘要和派生数据
  • 如果缺少数据,请使用默认值填充它们。
  • 删除来自多个数据源的重复数据。

这些提取、转换和加载工具可能会生成 cron 任务、后台作业、COBOL 程序、shell 脚本等,定期更新数据仓库系统中的数据。 这些工具对于元数据维护也很有用。

这些 ETL 工具必须处理数据库和数据异构性问题。

#3。 元数据

“元数据”一词让人联想到高级技术数据仓库概念的图像。 然而,它非常简单。 元数据是关于定义数据仓库系统的数据的信息。 它用于构建、维护和管理数据仓库。

元数据在数据仓库体系结构中至关重要,因为它标识数据仓库数据的来源、用途、值和属性。 它还指定如何更改和处理数据。 它与数据仓库系统紧密相连。

例如,销售数据库中的一行可能包含:

4030 KJ732 299.90

这是一个毫无意义的数据,直到我们查阅 Meta 告诉我们它是

  • 型号:4030
  • 销售代理编号:KJ732
  • 总销售额 $299.90

因此,元数据是将数据转化为知识的关键组成部分。

元数据可以回答以下问题:

  • 数据仓库中有哪些表、特征和键?
  • 信息从何而来?
  • 数据重新加载的频率如何?
  • 使用了哪些清洁转换?

元数据可以分为以下几类:

  • 技术元数据: 这种类型的元数据包含数据仓库设计者和管理员使用的仓库信息。
  • 业务元数据:这种类型的元数据包含允许最终用户轻松解释存储在数据仓库系统中的信息的详细信息。

#4。 查询工具

数据仓库的主要目标之一是为组织提供信息以帮助他们做出战略决策。 用户可以通过查询工具与数据仓库系统交互。 后端组件是查询管理器的另一个名称。 它处理与用户请求管理相关的所有流程。 数据仓库组件的操作是将查询定向到适当的表以进行查询调度。

#5。 数据仓库总线架构

仓库中的数据流由数据仓库总线决定。 在数据仓库系统中,数据流分为流入流、上流流、下流流、流出流和元流。

创建数据总线时,请记住跨数据集市的共享维度和事实。

数据集市:

数据集市是用于将数据分发给用户的访问层。 它被提升为大规模数据仓库的可行选择,因为它需要更少的时间和金钱来构建。 然而,数据集市并没有统一的定义,而且因人而异。

简而言之,数据集市是数据仓库的一个部分。 数据集市用于为特定消费者群体开发的数据分区。

数据仓库示例

要获得此数据仓库的一个很好的示例,请考虑一家健身器材制造商。 其最畅销的产品是固定自行车,公司正在考虑扩展其产品组合并发起新的营销活动来支持它。

它使用其数据仓库流程来更好地了解其当前客户。 它可以确定其消费者主要是 50 岁以上的女性还是 35 岁以下的男性。此外,它还可以帮助您更多地了解销售自行车最成功的商店以及它们所在的位置. 它可能能够检查内部调查结果并了解以前的客户喜欢和不喜欢他们的商品的哪些方面。

所有这些信息都有助于公司决定制造哪种类型的新型自行车以及如何对其进行促销和广告。 它基于硬数据而不是直觉。 有了这个数据仓库示例,我相信这个过程现在就很容易理解了。

数据仓库工具

市场上有许多数据仓库工具,但最受欢迎的类型包括:

#1。 马克逻辑

MarkLogic 是最流行的数据仓库工具类型之一,也是有价值的数据仓库解决方案的一个很好的例子,它使用各种企业功能来使数据集成更容易和更快。 该工具有助于在数据仓库中执行极其复杂的搜索操作。 它可能会查询多种数据,例如文档、关系和元数据。

#2. 甲骨文

Oracle 是业界最受欢迎的数据库。 它为本地和云部署提供了多种数据仓库解决方案。 此外,它通过提高运营效率有助于改善客户体验。 它还作为一种流行的数据仓库工具类型出现,供试用。

#3。 亚马逊红移

Amazon Redshift 是一个数据仓库应用程序。 它是一种直接且低成本的工具,用于使用传统 SQL 和现有 BI 工具分析各种形式的数据。 它还可以通过查询优化技术对 PB 级结构化数据执行复杂查询。

什么是数据仓库与数据库?

数据仓库在以下方面不同于数据库:

  • 数据库是一种事务系统,它分析和更新实时数据以确保只有最新的信息可用。
  • 数据仓库旨在随时间收集结构化数据。

例如,数据库可能只包含客户的最新地址,而数据仓库可能存储客户过去十年的所有地址。

数据仓库的四个阶段是什么?

以前,公司从非常简单的数据仓库应用程序开始。 然而,随着时间的推移,出现了更复杂的数据仓库应用程序。

以下是数据仓库 (DWH) 使用的一般阶段类型:

#1。 离线操作数据库

此时,数据只是从一个操作系统复制到另一个操作系统。 复制数据的加载、处理和报告对操作系统的性能没有影响。

#2。 离线数据仓库

数据仓库从操作数据库接收定期更新。 数据仓库数据被映射和更改以实现数据仓库目标。

#3。 实时数据仓库

每当操作数据库(例如,航空公司或火车预订系统)中发生事务时,数据仓库都会在此步骤更新。

#4。 综合数据仓库

当操作系统进行交易时,DataWarehouses 在这个级别定期更新。 之后,数据仓库生成事务,随后将其返回给操作系统。

数据仓库的特点是什么?

面向主题的、时变的、集成的、非易失性 是数据仓库特征的四种类型或例子,俗称数据仓库特征。

仓储的七大7大功能是什么?

  • 存储
  • 货物保护
  • 货物运输
  • 融资
  • 具有货币价值的服务
  • 物价稳定
  • 信息管理

什么是两种类型的仓储?

公共 私立 仓库是仓库的两种主要类型。

数据仓库的目的是什么?

数据仓库是数据的集中收集,可以研究这些数据以做出更好的决策。 数据定期从事务系统、关系数据库和其他来源流入数据仓库。

仓库的4个基本功能是什么?

无论是什么产品,每个仓库都会移动它、存储它、跟踪它并发出它。 存储、材料处理、包装和运输以及条码设备是来自这四项活动的四大类关键设备。

数据仓库中使用的三个 3 进程是什么?

Flow在数据仓库中的流程包括以下步骤:

  • 必须提取和加载数据。
  • 数据清洗和转换。
  • 应备份和存档数据。

在结论

数据仓库是关于公司业务及其在一段时间内如何执行的信息的集合。 它是揭示公司过去的成就和失败并指导决策的分析来源。 它是根据每个核心部门的员工的意见创建的。

参考资料

发表评论

您的电邮地址不会被公开。 必填带 *

你也许也喜欢