データ ウェアハウジング: 定義、タイプ、例、ツール

データ ウェアハウジング: 定義、タイプ、例、ツール
写真提供: Freepik.com
目次 隠す
  1. データ ウェアハウジングとは何ですか? 
  2. データ ウェアハウジングはどのように機能しますか?
  3. データ ウェアハウスの種類
    1. #1. エンタープライズ データ ウェアハウス (EDW):
    2. #2. オペレーショナル データ ストア (ODS):
    3. #3. データ市場:
  4. データ ウェアハウジングの 3 つの段階とは何ですか? 
    1. #1. オフラインデータベース:
    2. #2. リアルタイム データ ウェアハウス:
    3. #3. 統合されたデータウェアハウス:
  5. 単純なデータ ウェアハウスを構築するにはどうすればよいですか? 
    1. ステップ 1: ビジネス目標を決定する
    2. ステップ 2: 情報の収集と分析
    3. ステップ 3: コア ビジネス プロセスを特定する:
    4. ステップ 4: 概念的なデータ モデルを構築する:
    5. ステップ 5: データ ソースを見つけてデータ変換を計画する:
    6. ステップ 6: 追跡期間を設定する:
    7. ステップ 7: 計画を実行する:
  6. 10 年のデータ ウェアハウス ツール ベスト 2023
    1. #1。 Amazon Redshift: 
    2. #2. Microsoft Azure: 
    3. #3. Google BigQuery: 
    4. #4. スノーフレーク: 
    5. #5. マイクロ フォーカス バーティカ: 
    6. #6. Amazon DynamoDB: 
    7. #7。 PostgreSQL: 
    8. #8. アマゾンS3: 
    9. #9. テラデータ: 
    10. #10。 アマゾンRDS: 
  7. SQL データ ウェアハウジングとは何ですか? 
  8. ETL のデータ ウェアハウスとは何ですか? 
  9. ETL の概念とは何ですか? 
    1. #1. 抽出: 
    2. #2. 変身: 
    3. #3. ロード: 
  10. データベースとデータ ウェアハウスの違いは何ですか? 
  11. データ ウェアハウジングの概念とは何ですか?
    1. #1. データソース: 
    2. #2. データモデリング: 
    3. #3. データ統合: 
    4. #4. データストレージ: 
    5. #5. データアクセス: 
    6. #6. データガバナンス: 
    7. #7. データ市場: 
  12. クラウド データ ウェアハウジングとは何ですか?
  13. Azure データ ウェアハウジングとは何ですか?
  14. Snowflake データ ウェアハウジングとは何ですか?
  15. データ ウェアハウスにはコーディングが必要ですか?
  16. 関連記事: 
  17. 参照:

データ ウェアハウジングは、組織が顧客サービス、パートナー統合、経営上の意思決定など、さまざまなレベルにわたる大量のデータを効率的にレポートおよび分析するために不可欠です。 これらの概念を理解することが不可欠です。

データ ストレージの重要性を理解するために、この記事でいくつかの重要なデータ ウェアハウジングの概念を検討してみましょう。

データ ウェアハウジングとは何ですか? 

データ ウェアハウスは、企業またはその他の組織が機密電子データを保管する場所です。 データ ウェアハウスが収集して整理することを目的とした履歴データを使用すると、組織の業務をより深く理解できます。

さらに、ビジネス インテリジェンスの重要な要素はデータ ウェアハウスです。 この広義の用語には次のものが含まれます。 情報 現代の企業が過去の成功と失敗を監視し、将来の意思決定を導くために使用するインフラストラクチャ。

ご了承ください: 

  • データ ウェアハウスは、企業またはその他の組織が長期にわたって情報を保存する場所です。
  • マーケティングや営業など、さまざまな重要部門の担当者が定期的に新しいデータを追加します。
  • ウェアハウスは、ビジネス上の意思決定を支援するために参照および分析できる履歴データのリポジトリになります。
  • 組織にとって重要な情報を特定し、情報源を特定することは、データ ウェアハウスを成功させるための重要な要素です。
  • データベースは、リアルタイム データを提供するように設計されています。 データ ウェアハウスは古いデータのリポジトリとして作成されます。

データ ウェアハウジングはどのように機能しますか?

データ ウェアハウジングは、IBM 研究者のバリー デブリン氏とポール マーフィー氏によって 1988 年に導入され、さまざまなソースからの履歴データを分析するためのツールです。 これにより、ユーザーはトランザクション データに対してクエリと分析を実行し、企業のパフォーマンスに関する洞察を得ることができます。

ウェアハウスに追加されるデータは静的で変更できないことに注意してください。 さらに、ウェアハウスは、長年にわたる変更に重点を置いた履歴分析のデータ ソースとして機能します。 ウェアハウスに保管されるデータは、安全で信頼性が高く、取得可能で管理しやすい方法で保存する必要があります。

データ ウェアハウスの種類

#1. エンタープライズ データ ウェアハウス (EDW):

エンタープライズ データ ウェアハウス (EDW) と呼ばれる集中型ウェアハウスは、組織全体に意思決定支援サービスを提供します。 さらに、EDW は通常、データを主題ごとに分類および整理するための統一された方法を提供する複数のデータベースで構成されています。

#2. オペレーショナル データ ストア (ODS):

運用レポートと意思決定のためのエンタープライズ データ ウェアハウスの中央データベースは、ODS (EDW) として知られています。 さらに、EDW は戦術的および戦略的意思決定をサポートする一方で、従業員記録などの日常業務のリアルタイム更新を提供する補完的なコンポーネントです。

#3. データ市場:

データ マートは、特定のチームまたは事業分野に焦点を当てたデータ ウェアハウスのサブセットです。 さらに、特定のデータにすばやくアクセスできるため、ユーザーはデータ ウェアハウス全体の検索に時間を費やすことなく、重要な洞察を得ることができます。

データ ウェアハウジングの 3 つの段階とは何ですか? 

#1. オフラインデータベース:

この時点で、データは日常業務に使用されるシステムからバックアップのために外部サーバーに移動されます。 ロードやレポートなどの現在の操作はデータによって干渉されません。

  • オフライン データ ウェアハウス:

現時点では、データが常に最新であるとは限りません。 運用データベースからデータは定期的に (毎週、毎月など) 更新されます。

#2. リアルタイム データ ウェアハウス:

この時点で、運用データベースでトランザクションが発生するたびに、データ ウェアハウスが更新されます。 さらに、イベントベースのトリガーを使用してデータを収集し、レコードを更新する必要があるときにデータ ウェアハウスに警告します。 航空券の予約は一例です。

#3. 統合されたデータウェアハウス:

この時点で、運用システムによって操作が実行されるたびに、データ ウェアハウスは更新を受け取ります。 最新のデータを提供し、データ収集の中断を避けるために、データは運用システムにも戻されます。 データのこの段階が最も更新され、安全であることに注意してください。 結果として、このステップが最も信頼できると考えられます。

単純なデータ ウェアハウスを構築するにはどうすればよいですか? 

ステップ 1: ビジネス目標を決定する

ビジネスは急速に拡大しており、管理、販売、生産、サポートのスタッフからなるバランスの取れたチームを必要としています。 間接人員の増加、販売力の改善、国と地域の重点のバランスをとることの有効性は、主要な意思決定者によって評価される必要があります。 

これには、プロフィットセンターを監督しながら、リソース、連絡先、販売機会、人材を共有するオーナー、社長、および XNUMX 人の主要なマネージャーが含まれます。 さらに、システムは、契約規模などのより多くの情報を、より大きな契約につながる要因と関連付け、情報に基づいた意思決定を行う必要があります。 この組織は、販売個数、粗利益、純利益、費やした時間、教えられた生徒数、リピート生徒の登録などの重要な業績指標によって導かれます。

ステップ 2: 情報の収集と分析

リーダーは、会計ソフトウェア、CRM ソフトウェア、時間追跡システムなどのさまざまなソースからの質問やデータ収集を通じて、パフォーマンスに関する情報を引き出す必要があります。 アナリスト、マネージャー、および管理アシスタントは、見落とされたデータを含む分析レポートおよび概要レポートを作成できます。 データ ウェアハウスの設計者がこの情報を収集するのは難しい場合がありますが、その存在とそれがどのように収集および処理されるかを理解することが重要です。 

さらに、プロセスとその目的を理解することは、関与する個人を特定して理解することなくレポート タスクを自動化できるため、データ ウェアハウスの設計には不可欠です。

ステップ 3: コア ビジネス プロセスを特定する:

データ ウェアハウス内の主要業績評価指標を相関付ける指標を作成するために相互作用するエンティティを見つけます。 たとえば、トレーニング セールスには、クライアント、インストラクター、新製品の紹介、プロモーション、新しい営業担当者の雇用など、数多くの人的要因と商業的要因が関係します。 主要業績評価指標は、特定のビジネス プロセスのデータ ウェアハウスに保存され、指標とその要因を関連付けます。 

さらに、これらのインジケーターはファクト テーブルに保存され、それらを生成したディメンションにリンクするディメンション テーブルが作成されます。 

ステップ 4: 概念的なデータ モデルを構築する:

ビジネス プロセスを特定したら、データの概念モデルを作成できます。 ファクト テーブルとして導入される主題と、ファクトに接続されるディメンションを選択します。 情報の保存形式とビジネスプロセスごとの主要業績評価指標を詳細に確立します。 データは結合されて OLAP キューブを形成するため、一貫した測定単位である必要があることに注意してください。 

さらに、簡単そうに見えますが、このプロセスは簡単ではありません。 たとえば、組織が国際的で現金を手元に置いている場合は、通貨を選択する必要があります。 次のステップは、他の通貨を選択した通貨にいつ、どのような為替レートで換算するかを決定することです。 

ステップ 5: データ ソースを見つけてデータ変換を計画する:

データ ウェアハウス内のデータを効果的に管理するには、重要な情報ソースを特定し、それを統合された一貫した構造に移動します。 さらに、これには社内 CRM データベースと勤怠管理データベース間の情報の関連付けや、正確な分析を保証するためのデータのスクラブも含まれます。 これは、次の場合に実行できます。 

  • ソース データを使用する前に、プログラムまたは手動でソース データが完全であることを確認してください。 
  • データを修正するための最もコスト効率の高い手段を決定し、システム コストの一部としてそれらのコストを予測します。 
  • データ変換サービス (DTS) などのツールを使用してデータ変換を実行し、トレーニングとメンテナンスのコストを考慮します。 
  • データ抽出をスケジュールして、システム ユーザーへの影響を最小限に抑え、データの整合性を確保します。

ステップ 6: 追跡期間を設定する:

データ ウェアハウスには多くのストレージ スペースが必要であるため、データ アーカイブは長期間にわたって一貫性を保つ必要があります。 共有ディメンションを通じて、さまざまな粒度のさまざまなデータ構造を関連付けることができます。 時間の経過とともに要約されたデータは、日、週、月などのさまざまな形式で保存できます。

さらに、データの古さに応じて、分析ツールはさまざまな粒度で動作し、インポートされた古い履歴データを適切な形式に変換できます。

ステップ 7: 計画を実行する:

データ ウェアハウス プロジェクトの計画を作成して、作業を見積もり、フェーズをスケジュールします。 データ マートを実装してシステムの機能を紹介し、ジグソーパズルのように新しいデータ構造を統合します。 このアプローチにより、プロジェクトの成功が保証され、大規模なデータ ウェアハウス プロジェクトの範囲が維持されます。

さらに、意思決定者は、データ ウェアハウス システムのおかげで、組織の運営に関する統合された一貫した履歴データにアクセスできます。 慎重に計画を立てることで、システムは変数がどのように相互作用して組織に利益をもたらすか、あるいは危険をもたらすかについて重要な情報を提供できます。 コストは管理可能であり、この強力なツールはよく考えられた計画によって実現できます。

10 年のデータ ウェアハウス ツール ベスト 2023

クラウドベースのデータ ウェアハウス用ツールは数多くあります。 その結果、プロジェクトに最適なデータ ウェアハウス ツールを選択することが困難になります。 データ ウェアハウス ツールのトップ 10 は次のとおりです。  

#1。 Amazon Redshift: 

Amazon Redshift は、ペタバイト規模のデータを処理でき、SQL ベースのクライアントと BI ツールを使用した素早いクエリを提供できるクラウドベースのデータ ウェアハウスです。 さらに、AWS と統合し、オープンデータのエクスポートをサポートしているため、プラットフォームの導入と順応が容易になります。

#2. Microsoft Azure: 

Microsoft は、アプリケーションとサービスの構築、テスト、展開、管理はすべて、Azure として知られるパブリック クラウド コンピューティング プラットフォーム上で可能です。 Azure は、200 を超える製品とサービスの中で、サービスとしてのインフラストラクチャ (IaaS)、サービスとしてのプラットフォーム (PaaS)、サービスとしてのソフトウェア (SaaS) を提供しています。 

さらに、移植性、統合性、運用セキュリティと物理インフラストラクチャの両方の安全な基盤を提供します。 Web アプリケーション、サービス、Restful API は、Azure Apps によってホストおよび管理できます。

#3. Google BigQuery: 

BigQuery は、ANSI SQL と機械学習機能を備えたサーバーレス データ ウェアハウスで、2010 年に開発されました。さらに、大規模な読み取り専用データ セットに適したクラウドベースの分析サービスであり、既存のアプリケーションと IT 投資とのシームレスな統合のための自動スケーリング サービスを提供します。 。

#4. スノーフレーク: 

Snowflake と呼ばれるクラウドベースのデータ ウェアハウス プラットフォームは、Microsoft Azure または Amazon Web Services を使用して作成されます。 SQL データ処理は、独立したストレージ機能と計算スケーリング機能によって簡素化されます。 さらに、Snowflake は、使用量ベースの料金でスケーラブルで動的なコンピューティング能力を提供します。 Amazon S3 に匹敵するストレージ価値を備え、個別の計算とストレージを提供します。 

さらに、Snowflake を使用すると、データベース、テーブル、スキーマのスペースフリーのクローン作成が可能になります。 ただし、保存されたデータへのポインタが作成される場合があります。

#5. マイクロ フォーカス バーティカ: 

ビッグ データ ワークロード向けの Micro Focus Vertica は、スケーラビリティ、柔軟性、高度な分析を提供する自己監視型 MPP データベースです。 さらに、カラム指向の方法論と統合された分析ウェアハウスにより、ネットワークの最適化、クライアントの認識、予知保全、経済的コンプライアンスなどの運用が容易になります。

#6. Amazon DynamoDB: 

Amazon DynamoDB は、キーと値およびドキュメントのデータ構造をサポートする独自の NoSQL データ ウェアハウス サービスです。 これはアマゾン ウェブ サービスの一部であり、高可用性、信頼性、および進歩的なスケーラビリティを提供します。 

さらに、DynamoDB は OLTP ユースケースと分析クエリ向けに設計されており、自動スケーリング、使用量に応じた支払い、シンプルさ、管理するサーバーが不要というサーバーレス アプリケーションの価値に合わせて設計されています。 AWS 上で実行されるサーバーレス アプリケーションに広く使用されていることに注意してください。

#7。 PostgreSQL: 

PostgreSQL は、20 年以上のコミュニティ開発による堅牢なデータベース管理システムです。 これは、地理空間、分析、モバイル、および Web アプリケーションのメイン データ リポジトリとして機能します。 SQL のより複雑なバージョンである PostgreSQL は、トリガー、サブクエリ、外部キーなどの機能をサポートしています。 

さらに、データ ウェアハウジングおよび分析アプリケーション、ビジネス インテリジェンス ソフトウェア、および迅速な読み取りおよび書き込み操作が必要な OLTP および OLAP システムにも適しています。

#8. アマゾンS3: 

Amazon S3 は、安定性、アクセスしやすさ、パフォーマンス、セキュリティ、無制限のスケーラビリティを低価格で提供する NoSQL ストレージ サービスです。 さらに、大量の非構造化データおよび半構造化データをサポートし、ユーザーによる組織化を可能にし、同様のシステムへのサブスクリプション アクセスを提供します。 DynamoDB よりも遅いですが、ビジネス クラウド ストレージの標準を確立します。

#9. テラデータ: 

ビッグ データ ウェアハウス アプリケーションの場合、Teradata は人気のあるリレーショナル データベース管理システムであり、並列処理と MPP アーキテクチャを使用して負荷を軽減し、洞察力に富んだ結果を生み出します。 さらに、直感的なインターフェイスを通じてデータを取り込み、処理、管理することにより、統合と ETL の要件を満たします。

#10。 アマゾンRDS: 

AWS クラウド上でのリレーショナル データベースのスケーリングは、PaaS クラウド データ ストレージ サービスである RDS によって可能になります。 また、ソフトウェアのインストール、ストレージ、レプリケーション、災害復旧などの困難なタスクを管理するためのハードウェアを手頃な価格で提供します。 

さらに、RDS は XNUMX つのデータベース エンジン (Amazon Aurora、PostgreSQL、MySQL、MariaDB、Oracle Information、SQL Server) と XNUMX つのインスタンス クラスをサポートします。

SQL データ ウェアハウジングとは何ですか? 

SQL Data Warehouse は、超並列処理 (MPP) のおかげで、ペタバイト規模のデータに対する複雑なクエリを迅速に実行するエンタープライズ データ ウェアハウス (EDW) です。 

さらに、ビッグ データ ソリューションの重要な要素として、SQL Data Warehouse を利用します。 列指向ストレージは、SQL データ ウェアハウスによってリレーショナル テーブルにデータを格納するために使用されます。これにより、データ ストレージのコストが削減され、クエリのパフォーマンスが向上します。 データ処理を複数のノードに分散するために、SQL Data Warehouse はスケールアウト アーキテクチャを利用することに注意してください。

ETL のデータ ウェアハウスとは何ですか? 

ETL は、Extract、Transform、Load の略で、さまざまなソースからデータを収集し、ウェアハウスにロードするためにフォーマットして、そこにロードするためにデータ ウェアハウジングで使用されるプロセスです。 

ETL の概念とは何ですか? 

ETL のプロセスは次の XNUMX つの段階に分類できます。

#1. 抽出: 

トランザクション システム、スプレッドシート、フラット ファイルなどのさまざまなソースからのデータ抽出は、ETL プロセスの最初のステップです。 元のシステムから情報を読み取り、それをステージング領域に保管することは、このステップの一部です。

#2. 変身: 

抽出されたデータは、このプロセスを経て、データ ウェアハウスにロードできる形式に変換されます。 これには、データ型の変換、さまざまなソースからのデータの結合、データのクリーニングと検証、および新しいデータ フィールドの作成が必要となる場合があります。

#3. ロード: 

データは変換された後にデータ ウェアハウスにロードされます。 このステップでは、物理データ構造が作成され、データがウェアハウスにロードされます。

データベースとデータ ウェアハウスの違いは何ですか? 

分析目的で事前定義された固定スキーマを使用して XNUMX つ以上のシステムの現在データと履歴データの両方を保存するために使用されるデータ ウェアハウスとは対照的に、データベースはアプリケーションを現在実行するために必要なデータを保存します。 

データベースは、計画的に編成されたデータのグループであり、通常はコンピューター上に電子的に保存されます。 通常、データベース管理システム (DBMS) がデータベースを監視することに注意してください。

データ ウェアハウジングの概念とは何ですか?

データ ウェアハウジングに関連するいくつかの重要な概念を次に示します。

#1. データソース: 

運用データベース、外部データ ソース、フラット ファイル、その他のソースからのデータは、データ ウェアハウスで頻繁に結合されます。 このデータをデータ ウェアハウスにロードするには ETL (抽出、変換、ロード) が使用されることに注意してください。

#2. データモデリング: 

データ ウェアハウス内のデータを表すスキーマを作成するプロセスは、データ モデリングとして知られています。 したがって、ディメンション (時間、製品、顧客など) とメジャー (売上、収益、利益など) を含むファクト テーブルを作成します。

#3. データ統合: 

複数のソースからのデータを単一の統一されたビューに統合する方法は、データ統合として知られています。 さらに、データの不整合を修正したり、データ モデルに合わせてデータをクリーンアップおよび変更したりすることができます。

#4. データストレージ: 

リレーショナル データベース管理システム (RDBMS) は、データを保存するためにデータ ウェアハウスでよく使用されます。 効果的なクエリを実行するために、データにはインデックスが付けられ、テーブルに編成されます。

#5. データアクセス: 

レポート作成ソフトウェアや分析ソフトウェアなどのビジネス インテリジェンス (BI) ツールを使用して、データ ウェアハウス内のデータにアクセスできます。 これらのツールのユーザーは、データのクエリ、レポートの作成、洞察の表示ができることに注意してください。

#6. データガバナンス: 

データ ガバナンスとは、データ ウェアハウス内のデータの信頼性、一貫性、遵守を保証するプロセス、ポリシー、ベンチマークを指します。 これには、データ プライバシーの検証、データ セキュリティ、およびデータ セキュリティがすべて含まれることに注意してください。

#7. データ市場: 

データ MART は、特定の組織単位または部門をサポートするために作成されたデータ ウェアハウスの一部です。 データ ウェアハウスからデータの一部が選択され、ビジネス機能に固有の追加の変換が適用されてデータ マートが作成されます。

クラウド データ ウェアハウジングとは何ですか?

クラウド データ ウェアハウスは、パブリック クラウドでのスケーラブルなビジネス インテリジェンスと分析のために準備されたマネージド サービス データベースです。

さらに、クラウド データ ウェアハウジングにより、変化するビジネスの予算と要件に合わせてデータ ウェアハウスを動的に拡張および縮小できます。 IoT、CRM、財務システムなどのさまざまなソースからの情報を保存し、さまざまなビジネス インテリジェンスや分析のユースケースに構造化された統合データを提供します。

Azure データ ウェアハウジングとは何ですか?

顧客のトランザクションやビジネス アプリケーションなど、さまざまなソースからのデータは、通常、OTP データベース、ネットワーク共有、Azure Storage BLOB、またはデータ レイクに保存されます。 分析データ ストア レイヤーは、データ ウェアハウスに対する分析とレポートのクエリを満たすために使用されます。 

さらに、Azure は、Synapse、HDInsight、Hive、または Interactive Query を介した分析ストア機能を提供します。 Azure Data Factory または Oozie を使用してストレージからデータ ウェアハウスにデータを移動またはコピーするには、オーケストレーションが必要です。

Snowflake データ ウェアハウジングとは何ですか?

Snowflake Data Cloud は、他のデータ ウェアハウスでは不可能なレベルで、高いパフォーマンス、高い同時実行性、シンプルさ、手頃な価格を兼ね備えています。 データと分析のあらゆる側面を処理するために、特許取得済みの新しいアーキテクチャで構築されています。

さらに、Snowflake はストレージ、コンピューティング、サービスを統合し、独立した拡張と縮小を可能にし、応答性と適応性を高めます。 さらに、中央の永続データ リポジトリと MPP コンピューティング クラスターを使用し、各ノードがデータ セットの一部をローカライズします。 

データ ウェアハウスにはコーディングが必要ですか?

データ ウェアハウスのプログラミング、テスト、デバッグは、コーディングと手順の文書化に加えて、すべてデータ ウェアハウス プログラミング スペシャリストの責任です。 学士号が必要です。 さらに、ユニットまたは部門のマネージャーまたは責任者は、通常、データ ウェアハウス プログラミングのスペシャリストを監督します。

消費者のデータ: 定義、種類、およびその使用方法

データサイエンティスト VS データアナリスト: 完全比較 2023

データ サイエンスとは: データ サイエンスと分析のガイド

APACHE とは: Apache Web サーバーの詳細な概要を理解する

参照:

コーポレートファイナンス研究所 

Coursera

Investopedia

コメントを残す

あなたのメールアドレスは公開されません。 必須フィールドは、マークされています *

こんな商品もお勧めしています