Хранилище данных: определение и принцип работы

Хранилище данных
Канал данных
Содержание Спрятать
  1. Что такое хранилище данных?
  2. Как работает хранилище данных
    1. Ведение хранилища данных:
  3. Типы хранилищ данных
    1. №1. Корпоративное хранилище данных (EDW)
    2. № 2. Хранилище оперативных данных
    3. №3. Витрина данных
  4. Каковы 5 компонентов хранилища данных?
    1. №1. База данных склада
    2. № 2. Инструменты поиска, приобретения, очистки и преобразования (ETL)
    3. №3. Метаданные
    4. № 4. Инструменты запросов
    5. № 5. Архитектура шины хранилища данных
  5. Пример хранилища данных
  6. Инструменты хранилища данных
    1. № 1. МаркЛогик
    2. №2. Oracle
    3. №3. Amazon RedShift
  7. Что такое хранилище данных и база данных?
  8. Каковы четыре этапа хранилища данных?
    1. №1. Автономная оперативная база данных
    2. № 2. Автономное хранилище данных
    3. №3. Хранилище данных в реальном времени
    4. № 4. Интегрированное хранилище данных
  9. Каковы характеристики хранилища данных?
  10. Каковы семь 7 функций складского хозяйства?
  11. Каковы два типа складского хранения?
  12. Какова цель хранилища данных?
  13. Каковы 4 основные функции на складе?
  14. Какие три процесса используются в хранилище данных?
  15. В заключение
  16. Статьи по теме
  17. Рекомендации

Мы можем легко определить «хранилище данных» как безопасное электронное хранение информации бизнесом или другой организацией. Хранилище данных предназначено для создания репозитория исторических данных, которые можно извлечь и изучить, чтобы получить полезную информацию о деятельности организации. Существует разнообразная информация о хранилище данных, и эта статья, в свою очередь, послужит руководством по предоставлению подробной информации о том, что это такое, включая его типы, используемые инструменты и пример для работы. Давайте углубимся в детали. 

Что такое хранилище данных?

Хранилище данных, также известное как корпоративное хранилище данных (EDW), представляет собой систему, которая собирает данные из нескольких источников в единое, центральное, согласованное хранилище данных для облегчения анализа данных, интеллектуального анализа данных, искусственного интеллекта (ИИ) и машинного обучения. Этот термин позволяет организации выполнять сложную аналитику огромных объемов исторических данных (петабайты и петабайты) способами, недоступными для обычной базы данных.

Системы хранения данных были частью решений бизнес-аналитики (BI) более трех десятилетий, но в последнее время они развивались по мере появления новых типов данных и технологий размещения данных. Мы также можем сказать, что хранилище данных традиционно располагалось локально — часто на мейнфрейме — и его функциональность была сосредоточена на получении данных из различных источников, очистке и подготовке данных, а также на загрузке и обслуживании данных в реляционной базе данных. Хранилища данных теперь могут размещаться на специальном устройстве или в облаке, и большинство хранилищ данных также включают в себя аналитические возможности, а также средства визуализации и представления данных.

Как работает хранилище данных

Когда предприятия начали полагаться на компьютерные системы для создания, хранения и извлечения важных деловых документов, потребность в хранении данных возросла. Исследователи IBM Барри Девлин и Пол Мерфи придумали понятие хранения данных в 1988 году.

Хранилище данных предназначено для изучения исторических данных. Кроме того, данные, собранные из многочисленных разнородных источников, могут дать представление о деятельности компании. Хранилище данных предназначено для того, чтобы пользователи могли выполнять запросы и анализировать исторические данные, созданные из транзакционных источников.

Данные, которые добавляются в хранилище, не изменяются и не могут быть изменены. Склад — это источник, из которого делается аналитика по предыдущим событиям с упором на изменения с течением времени. Хранимые данные должны храниться безопасным, надежным, извлекаемым и управляемым способом.

Ведение хранилища данных:

Чтобы сохранить работоспособность этого хранилища данных, необходимо принять некоторые меры. Извлечение данных — это один из этапов, который требует получения огромных объемов данных из многочисленных источников. Очистка данных — это процесс проверки набора данных на наличие ошибок и исправления или исключения ошибок, обнаруженных после их компиляции.

Очищенные данные впоследствии преобразуются из формата базы данных в формат хранилища. После сохранения в хранилище данные сортируются, консолидируются и обобщаются, чтобы упростить их использование. По мере обновления различных источников данных в хранилище со временем добавляются дополнительные данные.

«Создание хранилища данных» WH Inmon, практическое руководство, впервые опубликованное в 1990 году и неоднократно переиздававшееся, является важной книгой по хранению данных.

Компании теперь могут инвестировать в программные услуги облачных хранилищ данных от Microsoft, Google, Amazon и Oracle, среди прочих.

Типы хранилищ данных

Существует три основных типа хранилищ данных (DWH):

№1. Корпоративное хранилище данных (EDW)

Централизованное хранилище — это корпоративное хранилище данных (EDW). Он предлагает услуги поддержки принятия решений по всей организации. Кроме того, он обеспечивает единый подход к организации и представлению данных. Он также позволяет классифицировать данные по темам и предоставлять доступ на основе этих классификаций.

№ 2. Хранилище оперативных данных

Когда ни хранилище данных, ни система OLTP не могут удовлетворить потребности организации в отчетности, требуется оперативное хранилище данных или ODS. Хранилище данных в ODS обновляется в режиме реального времени. В результате он широко используется для повседневных задач, таких как хранение данных о сотрудниках.

№3. Витрина данных

Витрина данных — это подразделение хранилища данных. Он специально разработан для определенного направления бизнеса, такого как продажи, финансы или продажи. Данные можно собирать непосредственно из источников в независимой витрине данных.

Каковы 5 компонентов хранилища данных?

Существует пять основных компонентов хранилища данных:

№1. База данных склада

Заведующий складом отвечает за операции, связанные с управлением данными на складе. Он выполняет такие задачи, как анализ данных для проверки согласованности, создание индексов и представлений, денормализация и генерация агрегатов, преобразование и слияние исходных данных, а также архивирование и резервное копирование данных.

№ 2. Инструменты поиска, приобретения, очистки и преобразования (ETL)

Технологии источника данных, преобразования и миграции используются в хранилищах данных для выполнения всех преобразований, суммирования и изменений, необходимых для преобразования данных в единый формат. Инструменты извлечения, преобразования и загрузки (ETL) — другое название для них.

Их возможности включают в себя:

  • Анонимизация данных в соответствии с нормативными положениями.
  • Устранение нежелательных данных в операционных базах данных от загрузки в Хранилище данных.
  • Поиск и замена общих имен и определений для данных, поступающих из разных источников.
  • Вычисление сводок и производных данных
  • В случае отсутствия данных заполните их значениями по умолчанию.
  • Дедуплицированные повторяющиеся данные, поступающие из нескольких источников данных.

Эти инструменты извлечения, преобразования и загрузки могут генерировать задачи cron, фоновые задания, программы COBOL, сценарии оболочки и т. д., которые регулярно обновляют данные в системе хранилища данных. Эти инструменты также полезны для обслуживания метаданных.

Эти инструменты ETL должны справляться с проблемами неоднородности базы данных и данных.

№3. Метаданные

Термин «метаданные» вызывает в воображении образы высокоуровневых технологических концепций хранения данных. Однако это довольно просто. Метаданные — это информация о данных, которая определяет систему хранения данных. Он используется для создания, обслуживания и управления хранилищами данных.

Метаданные имеют жизненно важное значение в архитектуре хранилища данных, поскольку они определяют источник, использование, значения и атрибуты данных хранилища данных. Он также определяет, как данные изменяются и обрабатываются. Он тесно связан с системой хранения данных.

Например, строка в базе данных продаж может содержать:

4030 КДЖ732 299.90

Это бессмысленные данные, пока мы не обратимся к Мета, которая говорит нам, что это было

  • Номер модели: 4030
  • ID агента по продажам: KJ732
  • Общая сумма продаж $ 299.90

В результате метаданные являются критически важными компонентами преобразования данных в знания.

С помощью метаданных можно ответить на следующие вопросы:

  • Какие таблицы, характеристики и ключи есть в хранилище данных?
  • Откуда взялась информация?
  • Как часто перезагружаются данные?
  • Какие очистительные преобразования использовались?

Метаданные можно разделить на следующие категории:

  • Технические метаданные: Этот тип метаданных содержит информацию хранилища, которая используется разработчиками и администраторами хранилищ данных.
  • Бизнес метаданные: этот тип метаданных содержит детали, которые позволяют конечным пользователям легко интерпретировать информацию, хранящуюся в системе хранения данных.

№ 4. Инструменты запросов

Одной из ключевых целей хранилищ данных является предоставление организациям информации, которая поможет им принимать стратегические решения. Пользователи могут взаимодействовать с системой хранилища данных с помощью инструментов запросов. Бэкэнд-компоненты — это другое название менеджеров запросов. Он обрабатывает все процессы, связанные с администрированием запросов пользователей. Операции компонента хранилища данных заключаются в том, чтобы направлять запросы к соответствующим таблицам для планирования запросов.

№ 5. Архитектура шины хранилища данных

Поток данных в вашем хранилище определяется шиной хранилища данных. В системе хранения данных поток данных классифицируется как входящий, восходящий, нисходящий, исходящий и метапоток.

При создании шины данных помните об общих измерениях и фактах в витринах данных.

Витрины данных:

Киоск данных — это уровень доступа, который используется для распространения данных среди пользователей. Он продвигается как жизнеспособный выбор для крупномасштабных хранилищ данных, поскольку для его создания требуется меньше времени и денег. Тем не менее, не существует универсального определения витрины данных, и оно варьируется от человека к человеку.

В двух словах, витрина данных — это часть хранилища данных. Витрина данных используется для разделения данных, разработанного для определенной группы потребителей.

Пример хранилища данных

Чтобы получить хороший пример такого хранилища данных, рассмотрим производителя фитнес-оборудования. Ее самым продаваемым продуктом является велотренажер, и компания думает о расширении своего портфолио и запуске новой маркетинговой кампании для его поддержки.

Он использует свой процесс хранения данных, чтобы лучше понять своих текущих клиентов. Он может определить, являются ли его потребители в основном женщинами старше 50 лет или парнями в возрасте до 35 лет. Кроме того, это может помочь вам узнать больше о магазинах, которые добились наибольшего успеха в продаже своих велосипедов, а также о том, где они расположены. . Возможно, он сможет изучить результаты внутреннего опроса и узнать, что нравилось и не нравилось бывшим клиентам в их товарах.

Вся эта информация помогает корпорации решить, какой тип новых моделей велосипедов создавать и как их продвигать и рекламировать. Он основан на достоверных данных, а не на интуиции. Я полагаю, что с этим примером хранилища данных процесс будет легко понятен.

Инструменты хранилища данных

На рынке существует множество инструментов для хранения данных, но самые популярные типы включают в себя:

№ 1. МаркЛогик

MarkLogic — один из самых популярных типов инструментов для хранилищ данных, а также хороший пример ценного решения для хранения данных, которое использует различные корпоративные возможности для упрощения и ускорения интеграции данных. Этот инструмент помогает выполнять чрезвычайно сложные операции поиска в хранилище данных. Он может запрашивать несколько типов данных, таких как документы, отношения и метаданные.

№2. Oracle

Oracle — самая популярная база данных в отрасли. Он предоставляет широкий спектр решений для хранения данных как для локальных, так и для облачных развертываний. Кроме того, это способствует улучшению качества обслуживания клиентов за счет повышения операционной эффективности. Он также входит в число популярных типов инструментов хранилища данных, которые можно опробовать.

№3. Amazon RedShift

Amazon Redshift — это приложение для хранения данных. Это простой и недорогой инструмент для анализа различных форм данных с использованием обычного SQL и существующих инструментов BI. Он также позволяет выполнять сложные запросы к петабайтам структурированных данных с помощью метода оптимизации запросов.

Что такое хранилище данных и база данных?

Хранилище данных отличается от базы данных следующими способами:

  • База данных — это транзакционная система, которая анализирует и обновляет данные в режиме реального времени, чтобы обеспечить наличие только самой актуальной информации.
  • Хранилище данных предназначено для сбора структурированных данных с течением времени.

База данных, например, может включать только самый последний адрес клиента, тогда как хранилище данных может хранить все адреса клиентов за предыдущие десять лет.

Каковы четыре этапа хранилища данных?

Раньше фирмы начинали с довольно простых приложений для хранения данных. Однако со временем появились более сложные приложения для хранения данных.

Ниже приведены общие типы этапов использования хранилища данных (DWH):

№1. Автономная оперативная база данных

На этом этапе данные просто копируются из одной операционной системы в другую. Загрузка, обработка и создание отчетов о скопированных данных не влияют на производительность операционной системы.

№ 2. Автономное хранилище данных

Хранилище данных регулярно получает обновления из оперативной базы данных. Данные хранилища данных сопоставляются и изменяются для достижения целей хранилища данных.

№3. Хранилище данных в реальном времени

Хранилища данных обновляются на этом этапе всякий раз, когда в оперативной базе данных происходит транзакция, например, в системе бронирования авиабилетов или поездов.

№ 4. Интегрированное хранилище данных

Хранилища данных регулярно обновляются на этом уровне, когда операционная система выполняет транзакцию. После этого Хранилище данных генерирует транзакции, которые впоследствии возвращаются в операционную систему.

Каковы характеристики хранилища данных?

Предметно-ориентированный, временной, интегрированный, и нелетучий являются четырьмя типами или примерами характеристик хранилища данных, широко известных как функции хранилища данных.

Каковы семь 7 функций складского хозяйства?

  • Хранилище
  • Защита товаров
  • Перевозка товаров
  • Финансирование
  • Услуги с денежной стоимостью
  • Стабилизация цен
  • Управление информацией

Каковы два типа складского хранения?

Общая и частная склады - это два основных типа складов.

Какова цель хранилища данных?

Хранилище данных — это централизованный сбор данных, которые можно изучить для принятия более эффективных решений. Данные регулярно поступают в хранилище данных из транзакционных систем, реляционных баз данных и других источников.

Каковы 4 основные функции на складе?

Каким бы ни был продукт, каждый склад перемещает его, хранит, отслеживает и отправляет. Хранение, погрузочно-разгрузочные работы, упаковка и отгрузка, а также оборудование для штрих-кодирования — это четыре ключевые категории оборудования, связанные с этими четырьмя видами деятельности.

Какие три процесса используются в хранилище данных?

Процесс Flow в хранилище данных включает следующие этапы:

  • Данные должны быть извлечены и загружены.
  • Очистка и преобразование данных.
  • Данные должны быть скопированы и заархивированы.

В заключение

Хранилище данных — это сбор информации о бизнесе компании и ее результатах с течением времени. Это источник анализа, который раскрывает прошлые достижения и неудачи компании и направляет процесс принятия решений. Он был создан при участии сотрудников каждого из его основных отделов.

Рекомендации

Оставьте комментарий

Ваш электронный адрес не будет опубликован. Обязательные поля помечены * *

Вам также может понравиться