DATA WAREHOUSE: 定義とその仕組み

データウェアハウス
データチャネル

「データ ウェアハウス」は、企業やその他の組織による情報の安全な電子的保存と簡単に定義できます。 データ ウェアハウスの目的は、組織の活動に関する有用な洞察を提供するために取得および調査できる履歴データのリポジトリを構築することです。 データ ウェアハウスについてはさまざまな情報があり、この記事は、データ ウェアハウスの種類、関連するツール、使用する例など、データ ウェアハウスについての詳細な情報を提供するためのガイドとして役立ちます。 詳しく見ていきましょう。 

データウェアハウスとは何ですか?

エンタープライズ データ ウェアハウス (EDW) とも呼ばれるデータ ウェアハウジングは、データ分析、データ マイニング、人工知能 (AI)、および機械学習を促進するために、複数のソースから単一の中央の一貫したデータ ストレージにデータを収集するシステムです。 この用語により、組織は、通常のデータベースでは不可能な方法で、大量の履歴データ (ペタバイトおよびペタバイト) に対して複雑な分析を実行できます。

データ ウェアハウジング システムは、XNUMX 年以上にわたりビジネス インテリジェンス (BI) ソリューションの一部でしたが、最近では、新しいデータ タイプやデータ ホスティング テクノロジの出現に伴って発展しています。 また、データ ウェアハウジングは従来、オンプレミス (多くの場合、メインフレーム コンピューター) でホストされており、その機能は、さまざまなソースからのデータの取得、データの精製と準備、およびリレーショナル データベースへのデータの読み込みと維持に重点を置いていたと言えます。 データ ウェアハウスは現在、専用のアプライアンスまたはクラウドに格納されている可能性があり、ほとんどのデータ ウェアハウスには分析機能、データの視覚化およびプレゼンテーション ツールも含まれています。

データ ウェアハウスのしくみ

企業が重要なビジネス ドキュメントの作成、ファイリング、検索をコンピュータ システムに依存し始めると、データ ウェアハウジングの必要性が高まりました。 IBM の研究者 Barry Devlin と Paul Murphy は、1988 年にデータ ストレージの概念を生み出しました。

データ ウェアハウジングは、履歴データの調査を可能にすることを目的としています。 また、多数の異種ソースから収集されたデータは、企業の業績に関する洞察を提供する場合があります。 データ ウェアハウスは、ユーザーがトランザクション ソースから生成された履歴データに対してクエリと分析を実行できるようにすることを目的としています。

ウェアハウスに追加されたデータは変更されず、変更できません。 ウェアハウスは、時間の経過に伴う変化に重点を置いて、以前のイベントに関する分析が行われるソースです。 ウェアハウスに保管されたデータは、安全で信頼性が高く、取得可能で管理しやすい方法で保管する必要があります。

データ ウェアハウスの維持:

このデータ ウェアハウスを稼働させ続けるには、いくつかの対策を講じる必要があります。 データ抽出は、多数のソースから膨大な量のデータを取得する必要があるフェーズの XNUMX つです。 データ クリーニングとは、一連のデータを調べてエラーを探し、コンパイル後に特定されたものを修正または除外するプロセスです。

クリーンアップされたデータは、その後、データベース形式からウェアハウジング形式に変換されます。 倉庫に保管されたデータは、活用しやすいように整理・集約・集計されます。 さまざまなデータ ソースが更新されると、時間の経過とともに追加のデータがウェアハウスに追加されます。

WH Inmon の『Creating the Data Warehouse』は、1990 年に初版が発行され、何度も再発行された実用的なハンドブックであり、データ ウェアハウスに関する重要な本です。

企業は、Microsoft、Google、Amazon、Oracle などのクラウドベースのデータ ウェアハウジング ソフトウェア サービスに投資できるようになりました。

データ ウェアハウスの種類

データ ウェアハウス (DWH) には、主に次の XNUMX つのタイプがあります。

#1。 エンタープライズ データ ウェアハウス (EDW)

集中型ウェアハウスは、エンタープライズ データ ウェアハウス (EDW) です。 組織全体に意思決定支援サービスを提供します。 また、データの編成と表現に対して統一されたアプローチを提供します。 また、サブジェクトごとにデータを分類し、それらの分類に基づいてアクセスを許可することもできます。

#2。 オペレーショナル データ ストア

データ ウェアハウスも OLTP システムも組織のレポート ニーズを満たすことができない場合、運用データ ストア (ODS) が必要になります。 ODS のデータ ウェアハウジングはリアルタイムで更新されます。 その結果、従業員の詳細を保持するなどの日常的なタスクに広く使用されています。

#3。 データマート

データ マートは、データ ウェアハウジングの下位区分です。 これは、販売、財務、販売などの特定の事業分野向けに特別に開発されています。 データは、独立したデータ マートのソースから直接収集できます。

データ ウェアハウスの 5 つのコンポーネントとは?

XNUMX つの主要なデータ ウェアハウス コンポーネントがあります。

#1。 倉庫データベース

倉庫管理者は、倉庫内のデータ管理に関する業務を担当します。 整合性を検証するためのデータ分析、インデックスとビューの構築、非正規化と集計の生成、ソース データの変換とマージ、データのアーカイブとバックアップなどのタスクを実行します。

#2。 ソーシング、取得、クリーンアップ、および変換ツール (ETL)

データ ソース、変換、および移行テクノロジは、データ ウェアハウジングで使用され、データを単一の形式に変換するために必要なすべての変換、要約、および変更を実行します。 抽出、変換、読み込み (ETL) ツールは、それらの別名です。

それらの機能は次のとおりです。

  • 規制規定に従ってデータを匿名化します。
  • 運用データベースの不要なデータがデータ ウェアハウスに読み込まれないようにする。
  • さまざまなソースから到着するデータの一般的な名前と定義を検索して置き換えます。
  • 集計と派生データの計算
  • データが欠落している場合は、デフォルトで入力します。
  • 複数のデータソースから到着する繰り返しデータの重複を排除します。

これらの抽出、変換、および読み込みツールは、データ ウェアハウス システム内のデータを定期的に更新する cron タスク、バックグラウンド ジョブ、COBOL プログラム、シェル スクリプトなどを生成する場合があります。 これらのツールは、メタデータのメンテナンスにも役立ちます。

これらの ETL ツールは、データベースとデータの異質性の問題に対処する必要があります。

#3。 メタデータ

「メタデータ」という用語は、高度な技術的データ ウェアハウジングの概念のイメージを思い起こさせます。 ただし、それは非常に簡単です。 メタデータは、データ ウェアハウジング システムを定義するデータに関する情報です。 これは、データ ウェアハウジングの構築、維持、および管理に使用されます。

メタデータは、データ ウェアハウジング データのソース、使用法、値、および属性を識別するため、データ ウェアハウジング アーキテクチャに不可欠です。 また、データの変更方法と処理方法も指定します。 これは、データ ウェアハウジング システムと密接にリンクしています。

たとえば、販売データベースの行には次のものが含まれる場合があります。

4030 KJ732 299.90

これは、それがあったことを示すメタを参照するまでは意味のないデータです。

  • モデル番号:4030
  • 販売代理店ID:KJ732
  • 総売上高 $299.90

その結果、メタデータは、データを知識に変換する際の重要なコンポーネントです。

メタデータを使用して、次の質問に答えることができます。

  • データ ウェアハウスにはどのようなテーブル、特性、およびキーがありますか?
  • 情報はどこから来たのですか?
  • データはどのくらいの頻度で再ロードされますか?
  • どのようなクレンジング変換が使用されましたか?

メタデータは、次のカテゴリに分類できます。

  • 技術メタデータ: このタイプのメタデータは、データ ウェアハウジングの設計者と管理者が使用するウェアハウス情報で構成されます。
  • ビジネスメタデータ: このタイプのメタデータには、データ ウェアハウス システムに格納されている情報をエンド ユーザーが簡単に解釈できるようにする詳細が含まれています。

#4。 クエリ ツール

データ ウェアハウジングの主要な目標の XNUMX つは、組織が戦略的な意思決定を行うのに役立つ情報を提供することです。 ユーザーは、クエリ ツールを介してデータ ウェアハウス システムと対話できます。 バックエンド コンポーネントは、クエリ マネージャーの別名です。 ユーザー要求の管理に関連するすべてのプロセスを処理します。 データ ウェアハウス コンポーネントの操作は、クエリ スケジューリングのために適切なテーブルにクエリを送信することです。

#5。 データ ウェアハウス バス アーキテクチャ

ウェアハウス内のデータの流れは、データ ウェアハウス バスによって決定されます。 データ ウェアハウジング システムでは、データ フローは、インフロー、アップフロー、ダウンフロー、アウトフロー、およびメタ フローに分類されます。

データ バスを作成するときは、データ マート間でディメンションとファクトが共有されることに注意してください。

データマート:

データ マートは、データをユーザーに配布するために使用されるアクセス レイヤーです。 構築に必要な時間と費用が少ないため、大規模なデータ ウェアハウスの実行可能な選択肢として推奨されています。 しかし、データ マートの普遍的な定義はなく、人によって異なります。

簡単に言うと、データ マートはデータ ウェアハウスの一部門です。 データ マートは、特定の消費者グループ向けに開発されたデータのパーティショニングに使用されます。

データ ウェアハウスの例

このデータ ウェアハウスの良い例として、フィットネス機器メーカーを考えてみましょう。 同社のベストセラー製品はエアロバイクであり、同社はポートフォリオを拡大し、それをサポートする新しいマーケティング キャンペーンを開始することを考えています。

現在の顧客をよりよく理解するために、データ ウェアハウジング プロセスを使用しています。 消費者の大半が 50 歳以上の女性か、35 歳未満の男性かを判断できます。また、自転車の販売で最も成功しているショップと、その店舗の場所について詳しく知ることができます。 . 内部調査の結果を調べて、以前の顧客が自分の商品について気に入った点と気に入らなかった点を知ることができるかもしれません。

このすべての情報は、企業が作成する新しいモデルの自転車の種類と、それらを宣伝および宣伝する方法を決定するのに役立ちます. これは直感ではなく、確かなデータに基づいています。 このデータ ウェアハウスの例で、プロセスが簡単に理解できるようになると思います。

データ ウェアハウス ツール

市場には多数のデータ ウェアハウス ツールがありますが、最も一般的なタイプは次のとおりです。

#1。 マークロジック

MarkLogic は、最も一般的なタイプのデータ ウェアハウス ツールの XNUMX つであり、さまざまなエンタープライズ機能を使用してデータ統合をより簡単かつ迅速にする貴重なデータ ウェアハウジング ソリューションの好例でもあります。 このツールは、データ ウェアハウスでの非常に複雑な検索操作の実行を支援します。 ドキュメント、関係、メタデータなど、さまざまな種類のデータをクエリできます。

#2。 オラクル

Oracle は、業界で最も人気のあるデータベースです。 オンプレミスとクラウドの両方の展開に、さまざまなデータ ウェアハウジング ソリューションを提供します。 また、運用効率を高めることで、顧客体験の向上にも貢献します。 また、トライアル用の一般的なタイプのデータ ウェアハウス ツールの XNUMX つとしても提供されています。

#3。 アマゾンレッドシフト

Amazon Redshift は、データ ウェアハウス アプリケーションです。 これは、従来の SQL や既存の BI ツールを使用して、さまざまな形式のデータを分析するための簡単で低コストのツールです。 また、クエリ最適化手法を使用して、ペタバイト規模の構造化データに対して複雑なクエリを実行することもできます。

データウェアハウスとデータベースとは?

データ ウェアハウスは、次の点でデータベースと異なります。

  • データベースは、リアルタイムのデータを分析および更新して、最新の情報のみを利用できるようにするトランザクション システムです。
  • データ ウェアハウスは、長期にわたって構造化データを収集するように設計されています。

たとえば、データベースにはクライアントの最新の住所のみが含まれている場合がありますが、データ ウェアハウスには過去 XNUMX 年間の顧客の住所がすべて格納されている場合があります。

データ ウェアハウスの XNUMX つの段階とは?

以前は、企業は非常に単純なデータ ウェアハウジング アプリケーションから始めていました。 しかし、時間の経過とともに、より複雑なデータ ウェアハウス アプリケーションが登場しました。

以下は、データ ウェアハウス (DWH) で使用されるステージの一般的な種類です。

#1。 オフライン運用データベース

この時点では、データはあるオペレーティング システムから別のオペレーティング システムに単純にコピーされます。 コピーされたデータのロード、処理、およびレポートは、運用システムのパフォーマンスには影響しません。

#2。 オフライン データ ウェアハウス

データ ウェアハウスは、運用データベースから定期的に更新を受け取ります。 データ ウェアハウスのデータは、データ ウェアハウスの目的を達成するためにマッピングおよび変更されます。

#3。 リアルタイム データ ウェアハウス

データ ウェアハウスは、航空会社や列車の予約システムなどの運用データベースでトランザクションが発生するたびに、このステップで更新されます。

#4。 統合データ ウェアハウス

オペレーティング システムがトランザクションを作成すると、データ ウェアハウスはこのレベルで定期的に更新されます。 その後、データ ウェアハウスがトランザクションを生成し、その後、トランザクションが運用システムに返されます。

データ ウェアハウスの特徴は何ですか?

主題指向、時変、統合、 & 不揮発性 一般にデータ ウェアハウス機能として知られているデータ ウェアハウスの特性の XNUMX つのタイプまたは例を次に示します。

倉庫の7つの機能とは?

  • Storage
  • 商品の保護
  • 商品の輸送
  • 料金について
  • 金銭的価値のあるサービス
  • 物価の安定
  • 情報の管理

XNUMX種類の倉庫とは何ですか?

公共 & プライベート 倉庫は、倉庫の XNUMX つの主要なタイプです。

データ ウェアハウスの目的は何ですか?

データ ウェアハウスとは、より適切な意思決定を行うために調査できるデータの一元的なコレクションです。 データは、トランザクション システム、リレーショナル データベース、およびその他のソースから定期的にデータ ウェアハウスに流れ込みます。

倉庫の4つの基本機能とは?

製品が何であれ、すべての倉庫が移動、保管、追跡、発送を行います。 保管、マテリアル ハンドリング、梱包と出荷、およびバーコード機器は、これら XNUMX つの活動から生じる XNUMX つの主要な機器カテゴリです。

データ ウェアハウスで使用される 3 つの XNUMX つのプロセスは何ですか?

データ ウェアハウスでのフローのプロセスには、次の手順が含まれます。

  • データを抽出してロードする必要があります。
  • データのクリーニングと変換。
  • データはバックアップおよびアーカイブする必要があります。

結論として

データ ウェアハウスとは、企業のビジネスとその業績に関する情報の収集です。 企業の過去の実績と失敗を明らかにし、意思決定を導く分析の源です。 各コア部門の従業員からの意見をもとに作成されました。

参考文献

コメントを残す

あなたのメールアドレスは公開されません。 必須フィールドは、マークされています *

こんな商品もお勧めしています