数据仓库:定义、类型、示例和工具

数据仓库:定义、类型、示例和工具
图片来源:Freepik.com

数据仓库对于组织有效报告和分析各个级别的大量数据至关重要,包括客户服务、合作伙伴集成和执行决策。 理解这些概念至关重要。

让我们研究一下本文中的一些关键数据仓库概念,以理解数据存储的重要性。

什么是数据仓库? 

数据仓库是公司或其他组织存储机密电子数据的地方。 通过使用数据仓库旨在收集和组织的历史数据,可以更好地理解组织的运营。

此外,商业智能的一个关键要素是数据仓库。 这个更广泛的术语包括 信息 当代企业用来密切关注之前的成功和失败并指导未来决策的基础设施。

注意: 

  • 数据仓库是公司或其他组织长期存储信息的地方。
  • 来自各个重要部门(包括营销和销售)的人员会定期添加新数据。
  • 仓库变成了历史数据的存储库,可以查阅和分析以协助业务决策。
  • 确定对组织至关重要的信息并找到信息源是创建成功的数据仓库的关键组成部分。
  • 数据库旨在提供实时数据。 创建数据仓库作为旧数据的存储库。

数据仓库如何工作?

数据仓库由 IBM 研究人员 Barry Devlin 和 Paul Murphy 于 1988 年提出,是一种用于分析各种来源的历史数据的工具。 它使用户能够对交易数据进行查询和分析,从而深入了解公司的绩效。

请注意,添加到仓库的数据是静态的且不可更改。 此外,该仓库还作为历史分析的数据源,重点关注多年来的修改。 入库的数据需要以安全、可靠、可检索和可管理的方式保存。

数据仓库的类型

#1. 企业数据仓库 (EDW):

称为企业数据仓库 (EDW) 的集中式仓库为整个组织提供决策支持服务。 此外,EDW 通常由多个数据库组成,这些数据库提供按主题分类和组织数据的统一方法。

#2. 操作数据存储 (ODS):

企业数据仓库用于运营报告和决策的中央数据库称为 ODS (EDW)。 此外,虽然 EDW 支持战术和战略决策,但它是一个补充组件,可为员工记录等日常任务提供实时更新。

#3。 数据库:

数据集市是数据仓库的子集,专注于特定团队或业务线。 此外,它还提供对特定数据的快速访问,使用户能够获得重要的见解,而无需浪费时间搜索整个数据仓库。

数据仓库的三个阶段是什么? 

#1. 离线数据库:

此时,数据从用于日常操作的系统转移到外部服务器进行备份。 当前的操作,例如加载和报告,不会受到数据的干扰。

  • 离线数据仓库:

目前并不总是保证数据是最新的。 运营数据库中的数据会定期(每周、每月等)更新。

#2. 实时数据仓库:

此时,每当操作数据库中发生事务时,数据仓库就会更新。 此外,基于事件的触发器用于收集数据并在需要更新记录时向数据仓库发出警报。 机票预订就是一个例子。

#3。 集成数据仓库:

此时,每当操作系统执行操作时,数据仓库都会收到更新。 为了提供最新数据并避免数据收集中断,他们还将数据传回操作系统。 请注意,此阶段的数据是最新且安全的。 因此,这一步被认为是最值得信赖的。

如何构建简单的数据仓库? 

第 1 步:确定业务目标

该业务正在快速扩张,需要一支由行政、销售、生产和支持人员组成的均衡团队。 关键决策者必须评估增加间接人员配置、改善销售队伍以及平衡国家和地区重点的有效性。 

这包括所有者、总裁和四位关键经理在监督利润中心的同时共享资源、联系人、销售机会和人员。 此外,系统必须将更多信息(例如合同规模)与导致更大合同的因素相关联,并做出明智的决策。 该组织以关键绩效指标为主导,例如销售量、毛利润、净利润、花费的时间、教授的学生以及重复的学生注册。

步骤 2:收集和分析信息

领导者应通过提问和从各种来源收集数据来获取有关绩效的信息,包括会计软件、CRM 软件和时间跟踪系统。 分析师、经理和行政助理可以生成包含被忽视的数据的分析和总结报告。 对于数据仓库设计者来说,收集这些信息可能很困难,但理解它的存在以及它是如何收集和处理的却是至关重要的。 

此外,了解流程及其目的对于设计数据仓库至关重要,因为它允许报告任务的自动化,而无需识别和了解所涉及的个人。

第 3 步:确定核心业务流程:

查找交互以创建指标以关联数据仓库中的关键绩效指标的实体。 例如,培训销售涉及许多人力和商业因素,包括客户、讲师、新产品介绍、促销以及新销售人员的雇用。 特定业务流程的关键绩效指标存储在数据仓库中,这也将它们与导致它们的因素相关联。 

此外,这些指标存储在事实表中,并创建维度表将它们链接到生成它们的维度。 

第 4 步:构建概念数据模型:

识别业务流程后,您可以创建数据的概念模型。 您选择将作为事实表引入的主题以及将与事实相关的维度。 详细建立每个业务流程的信息存储格式和关键绩效指标。 请注意,由于数据将组合形成 OLAP 多维数据集,因此它必须采用一致的测量单位。 

此外,虽然看起来很容易,但过程却并非如此。 例如,如果该组织是国际组织并持有现金,则您必须选择一种货币。 下一步是决定何时以及以何种汇率将其他货币转换为您选择的货币。 

步骤 5:找到数据源并规划数据转换:

为了有效管理数据仓库中的数据,需要识别关键信息源并将其转移到整合、一致的结构中。 此外,这还涉及内部 CRM 和时间报告数据库之间的信息关联,以及清理数据以确保分析准确。 当您执行以下操作时可以完成此操作: 

  • 在以编程方式或手动方式使用源数据之前,请确保源数据完整。 
  • 确定纠正数据的最具成本效益的方法,并将这些成本预测为系统成本的一部分。 
  • 使用数据转换服务 (DTS) 等工具执行数据转换,并考虑培训和维护成本。 
  • 安排数据提取以尽量减少对系统用户的影响并确保数据完整性。

第 6 步:设置跟踪持续时间:

数据归档应该随着时间的推移保持一致,因为数据仓库需要大量的存储空间。 通过共享维度,可以将具有不同粒度的各种数据结构关联起来。 随着时间的推移汇总的数据可以以多种格式存储,包括日、周或月。

此外,根据数据的年龄,分析工具可以使用不同的粒度,并且导入的较旧的历史数据可以转换为正确的格式。

第 7 步:实施计划:

制定数据仓库项目计划以估计工作并安排阶段。 实施数据集市来展示系统的功能,集成新的数据结构,因为它们像拼图游戏一样组合在一起。 这种方法可确保项目成功并维持大型数据仓库项目的范围。

此外,借助数据仓库系统,决策者可以访问有关其组织运营的整合、一致的历史数据。 通过仔细的规划,系统可以提供有关变量如何相互作用以使组织受益或危害组织的重要信息。 成本是可以管理的,并且通过深思熟虑的计划,这个强大的工具可以成为现实。

10 年最佳 2023 个数据仓库工具

有许多基于云的数据仓库工具。 因此,为我们的项目选择最好的数据仓库工具变得具有挑战性。 排名前 10 位的数据仓库工具如下:  

#1. 亚马逊红移: 

Amazon Redshift 是一个基于云的数据仓库,能够处理 PB 级数据,并使用基于 SQL 的客户端和 BI 工具提供快速查询。 此外,它与 AWS 集成并支持开放数据导出,使平台采用和适应变得容易。

#2. 微软Azure: 

微软开始在名为 Azure 的公共云计算平台上构建、测试、部署和管理应用程序和服务。 Azure 提供基础设施即服务 (IaaS)、平台即服务 (PaaS) 和软件即服务 (SaaS) 等 200 多种产品和服务。 

此外,它还为操作安全和物理基础设施提供了可移植性、集成性和安全基础。 Web 应用程序、服务和 Restful API 可以由 Azure 应用程序托管和管理。

#3。 谷歌大查询: 

BigQuery 是一种具有 ANSI SQL 和机器学习功能的无服务器数据仓库,于 2010 年开发。此外,它是一种基于云的分析服务,适用于大型只读数据集,并提供自动扩展服务,以便与现有应用程序和 IT 投资无缝集成。

#4。 雪花: 

名为 Snowflake 的基于云的数据仓库平台是使用 Microsoft Azure 或 Amazon Web Services 创建的。 SQL数据处理因其独立的存储和计算扩展能力而变得更加简单。 此外,Snowflake 提供可扩展的动态计算能力,并按使用情况收费。 其存储价值堪比Amazon S3,计算与存储分离。 

此外,Snowflake 允许无空间克隆数据库、表和模式。 然而,可以创建指向所存储数据的指针。

#5。 微焦点垂直: 

对于大数据工作负载,Micro Focus Vertica 是一个自我监控的 MPP 数据库,可提供可扩展性、灵活性和高级分析。 此外,它的面向列的方法和统一的分析仓库有助于网络优化、客户识别、预测性维护和经济合规性等操作。

#6。 亚马逊 DynamoDB: 

Amazon DynamoDB 是一项专有的 NoSQL 数据仓库服务,支持键值和文档数据结构。 它是 Amazon Web Services 的一部分,提供高可用性、可靠性和渐进式可扩展性。 

此外,DynamoDB 专为 OLTP 用例和分析查询而设计,符合无服务器应用程序的自动扩展、按使用量付费、简单性和无需管理服务器的价值观。 请注意,它广泛用于在 AWS 上运行的无服务器应用程序。

#7. PostgreSQL: 

PostgreSQL 是一个经过 20 多年社区开发的强大数据库管理系统。 它充当地理空间、分析、移动和 Web 应用程序的主要数据存储库。 PostgreSQL 是 SQL 的更复杂版本,支持触发器、子查询和外键等功能。 

此外,它还适用于数据仓库和分析应用程序、商业智能软件以及需要快速读写操作的OLTP和OLAP系统。

#8。 亚马逊S3: 

Amazon S3 是一种 NoSQL 存储服务,以低廉的价格提供稳定性、可访问性、性能、安全性和无限的可扩展性。 此外,它还支持大量、非结构化和半结构化数据,允许用户组织,并提供对类似系统的订阅访问。 虽然比 DynamoDB 慢,但它为企业云存储树立了标准。

#9。 泰瑞数据: 

对于大数据仓库应用程序,Teradata 是一种流行的关系数据库管理系统,它使用并行性和 MPP 架构来减轻负载并产生富有洞察力的结果。 此外,它还通过直观的界面摄取、处理和管理数据,满足集成和 ETL 要求。

#10。 亚马逊 RDS: 

RDS(一种 PaaS 云数据存储服务)使在 AWS 云上扩展关系数据库成为可能。 它还提供经济实惠的硬件来管理软件安装、存储、复制和灾难恢复等困难任务。 

此外,RDS 支持六种数据库引擎:Amazon Aurora、PostgreSQL、MySQL、MariaDB、Oracle Information 和 SQL Server,以及三种实例类。

什么是 SQL 数据仓库? 

SQL 数据仓库是一种企业数据仓库 (EDW),借助大规模并行处理 (MPP),可以快速对 PB 级数据运行复杂查询。 

此外,作为大数据解决方案的关键要素,请利用 SQL 数据仓库。 SQL数据仓库使用列式存储将数据存储在关系表中,从而降低数据存储成本并提高查询性能。 请注意,为了跨多个节点分布数据处理,SQL 数据仓库使用了横向扩展架构。

ETL 中的数据仓库是什么? 

ETL 代表提取、转换和加载,是数据仓库中使用的一个过程,用于从各种来源收集数据,对其进行格式化以加载到仓库中,然后将其加载到那里。 

Etl 概念是什么? 

ETL的过程可以分为以下三个阶段:

#1. 萃取: 

从各种来源(包括事务系统、电子表格和平面文件)提取数据是 ETL 过程的第一步。 从原始系统读取信息并将其存放在暂存区域是此步骤的一部分。

#2. 转换: 

通过此过程将提取的数据转换为可以加载到数据仓库中的格式。 这可能需要转换数据类型、组合来自不同来源的数据、清理和验证数据以及创建新的数据字段。

#3。 加载: 

数据在转换后加载到数据仓库中。 在此步骤中,创建物理数据结构并将数据加载到仓库中。

数据库和数据仓库有什么区别? 

数据仓库用于存储一个或多个系统的当前和历史数据,并具有预定义和固定的模式以进行分析,而数据库则存储当前运行应用程序所需的数据。 

数据库是经过组织的有计划的数据分组,通常以电子方式保存在计算机上。 请注意,数据库管理系统 (DBMS) 通常负责监督数据库。

数据仓库的概念是什么?

以下是与数据仓库相关的一些关键概念:

#1. 数据源: 

来自操作数据库、外部数据源、平面文件和其他源的数据经常组合在数据仓库中。 请注意,ETL(提取、转换和加载)用于将此数据加载到数据仓库中。

#2. 数据建模: 

创建表示数据仓库中的数据的模式的过程称为数据建模。 因此,制作维度(例如时间、产品和客户)和具有度量(例如销售额、收入和利润)的事实表

#3。 数据整合: 

将多个来源的数据集成到单个统一视图的方法称为数据集成。 此外,可以修复数据中的不一致,并且可以清理和修改数据以适应数据模型。

#4。 数据存储: 

关系数据库管理系统(RDBMS)经常在数据仓库中用于存储数据。 为了有效查询,数据被索引并组织到表中。

#5。 数据访问: 

商业智能 (BI) 工具(例如报告和分析软件)可用于访问数据仓库中的数据。 请注意,这些工具的用户可以查询数据、生成报告和显示见解。

#6。 数据治理: 

数据治理是指确保数据仓库中数据的可靠性、一致性和一致性的流程、策略和基准。 注意,数据隐私验证、数据安全、数据安全都包含在这里面。

#7。 数据库: 

数据集市是为支持特定组织单位或部门而创建的数据仓库的一部分。 选择数据仓库中的一部分数据,然后应用业务功能特有的附加转换来创建数据集市。

什么是云数据仓库?

云数据仓库是一种托管服务数据库,专为公共云中的可扩展商业智能和分析而准备。

此外,云数据仓库允许数据仓库动态增长和收缩,以满足不断变化的业务预算和需求。 它存储来自 IoT、CRM 和财务系统等不同来源的信息,为各种商业智能和分析用例提供结构化、统一的数据。

什么是 Azure 数据仓库?

来自各种来源(例如客户交易或业务应用程序)的数据通常存储在 OTP 数据库、网络共享、Azure 存储 Blob 或数据湖中。 分析数据存储层用于满足对数据仓库的分析和报告查询。 

此外,Azure 通过 Synapse、HDInsight、Hive 或交互式查询提供分析存储功能。 使用 Azure 数据工厂或 Oozie 将数据移动或从存储复制到数据仓库需要编排。

什么是雪花数据仓库?

雪花数据云将高性能、高并发、简单性和经济性结合在一起,达到了其他数据仓库无法达到的程度。 它采用获得专利的新架构构建,可以处理数据和分析的各个方面。

此外,Snowflake集存储、计算、服务于一体,可独立扩缩容,响应能力更强,适应性更强。 此外,它使用中央持久数据存储库和 MPP 计算集群,每个节点本地化一部分数据集。 

数据仓库需要编码吗?

除了编码和记录程序之外,编程、测试和调试数据仓库都是数据仓库编程专家的职责。 学士学位是必要的。 此外,单位或部门的经理或负责人通常会监督数据仓库编程专家。

消费者数据:定义、类型以及他们如何使用它

数据科学家 VS 数据分析师:2023 年全面比较

什么是数据科学:数据科学和分析指南

什么是 APACHE:深入了解 Apache Web 服务器

参考文献:

企业金融研究所 

Coursera

Investopedia

发表评论

您的电邮地址不会被公开。 必填带 *

你也许也喜欢