СКЛАДИЩИЩЕ ДАНИХ: визначення та принципи роботи

Інформаційне сховище
Канал даних
Зміст приховувати
  1. Що таке сховище даних?
  2. Як працює сховище даних
    1. Ведення сховища даних:
  3. Типи сховищ даних
    1. #1. Enterprise Data Warehouse (EDW)
    2. #2. Сховище операційних даних
    3. #3. Маршрут даних
  4. Які 5 компонентів сховища даних?
    1. #1. База даних складу
    2. #2. Інструменти пошуку, придбання, очищення та трансформації (ETL)
    3. #3. Метадані
    4. #4. Інструменти запитів
    5. #5. Архітектура шини сховища даних
  5. Приклад сховища даних
  6. Інструменти сховища даних
    1. #1. MarkLogic
    2. № 2. Оракул
    3. #3. Amazon RedShift
  7. Що таке сховище даних проти бази даних?
  8. Які чотири етапи сховища даних?
    1. #1. Офлайн оперативна база даних
    2. #2. Offline Data Warehouse
    3. #3. Сховище даних реального часу
    4. #4. Інтегроване сховище даних
  9. Які характеристики сховища даних?
  10. Які сім 7 функцій складування?
  11. Які є два типи складування?
  12. Яке призначення сховища даних?
  13. Які 4 основні функції в складі?
  14. Які три 3 процеси використовуються в сховищі даних?
  15. На закінчення
  16. Статті по темі
  17. посилання

Ми можемо легко визначити «сховище даних» як безпечне електронне зберігання інформації бізнесом або іншою організацією. Метою сховища даних є створення репозиторію історичних даних, які можна отримати та перевірити, щоб надати корисну інформацію про діяльність організації. Існує різноманітна інформація про сховище даних, і ця стаття, у свою чергу, слугуватиме посібником для надання детальної інформації про те, що це таке, включаючи його типи, задіяні інструменти та приклади для роботи. Давайте розберемося в деталях. 

Що таке сховище даних?

Сховище даних, також відоме як корпоративне сховище даних (EDW), — це система, яка збирає дані з кількох джерел в єдине центральне узгоджене сховище даних для полегшення аналізу даних, інтелектуального аналізу даних, штучного інтелекту (AI) і машинного навчання. Цей термін дає змогу організації виконувати складну аналітику величезних обсягів історичних даних (петабайтів і петабайтів) у спосіб, який не може зробити звичайна база даних.

Системи сховищ даних були частиною рішень бізнес-аналітики (BI) більше трьох десятиліть, але останнім часом вони розвивалися разом із появою нових типів даних і технологій розміщення даних. Ми також можемо сказати, що сховища даних традиційно розміщувалися локально — часто на мейнфреймі — і його функціональні можливості були зосереджені на отриманні даних із різних джерел, очищенні та підготовці даних, а також завантаженні та підтримці даних у реляційній базі даних. Тепер сховища даних можуть розміщуватися на спеціальному пристрої або в хмарі, і більшість сховищ даних також включають аналітичні можливості, а також інструменти візуалізації та презентації даних.

Як працює сховище даних

Коли підприємства почали покладатися на комп’ютерні системи для створення, зберігання та отримання важливих бізнес-документів, потреба в сховищах даних зросла. Дослідники IBM Баррі Девлін і Пол Мерфі запропонували поняття зберігання даних у 1988 році.

Сховище даних призначене для перевірки історичних даних. Крім того, дані, зібрані з численних різнорідних джерел, можуть дати розуміння ефективності компанії. Сховище даних призначене для того, щоб користувачі могли виконувати запити та аналізувати історичні дані, згенеровані з транзакційних джерел.

Дані, які додаються до сховища, не змінюються і не можуть бути змінені. Склад — це джерело, з якого виконується аналітика попередніх подій, зосереджена на змінах із часом. Дані, що зберігаються, повинні зберігатися безпечно, надійно, доступно для відновлення та керування.

Ведення сховища даних:

Щоб підтримувати роботу цього сховища даних, необхідно вжити певних заходів. Вилучення даних — це один із етапів, який вимагає отримання величезних обсягів даних із багатьох джерел. Очищення даних — це процес перевірки набору даних на наявність помилок і виправлення або виключення тих, які виявлені після їх компіляції.

Очищені дані згодом перетворюються з формату бази даних у формат зберігання. Після зберігання в сховищі дані сортуються, консолідуються та узагальнюються, щоб полегшити їх використання. У міру оновлення різних джерел даних до сховища з часом додаються додаткові дані.

Практичний довідник WH Inmon Creating the Data Warehouse, вперше опублікований у 1990 році та неодноразово перевиданий, є важливою книгою про сховища даних.

Компанії тепер можуть інвестувати в програмні послуги хмарного сховища даних від Microsoft, Google, Amazon і Oracle, серед інших.

Типи сховищ даних

Існує три основні типи сховищ даних (DWH):

#1. Enterprise Data Warehouse (EDW)

Централізоване сховище — корпоративне сховище даних (EDW). Він пропонує послуги підтримки прийняття рішень у всій організації. Крім того, він забезпечує єдиний підхід до організації та представлення даних. Це також дозволяє класифікувати дані за темами та надавати доступ на основі цих класифікацій.

#2. Сховище операційних даних

Якщо ні сховище даних, ні система OLTP не можуть задовольнити потреби організації у звітності, потрібне сховище оперативних даних або ODS. Сховище даних в ODS оновлюється в режимі реального часу. Як результат, він широко використовується для повсякденних завдань, таких як збереження даних про співробітників.

#3. Маршрут даних

Вітрина даних — це підрозділ сховищ даних. Він спеціально розроблений для конкретного напряму діяльності, наприклад продажів, фінансів або продажів. Дані можна збирати безпосередньо з джерел у незалежній вітрині даних.

Які 5 компонентів сховища даних?

Існує п’ять основних компонентів сховища даних:

#1. База даних складу

Керівник складу відповідає за операції, пов'язані з управлінням даними на складі. Він виконує такі завдання, як аналіз даних для перевірки узгодженості, створення індексів і представлень, денормалізація та генерація агрегатів, перетворення та злиття вихідних даних, а також архівування та резервне копіювання даних.

#2. Інструменти пошуку, придбання, очищення та трансформації (ETL)

Джерело даних, технології перетворення та міграції використовуються в сховищах даних для виконання всіх перетворень, узагальнень і змін, необхідних для перетворення даних в єдиний формат. Інструменти видобування, перетворення та завантаження (ETL) — інша їх назва.

До їх можливостей входить:

  • Анонімізувати дані відповідно до нормативних положень.
  • Усунення непотрібних даних в оперативних базах даних від завантаження в сховище даних.
  • Пошук і заміна загальних імен і визначень для даних, що надходять з різних джерел.
  • Обчислення зведених і похідних даних
  • У разі відсутності даних заповніть їх стандартними.
  • Дедупліковані повторювані дані, що надходять із кількох джерел даних.

Ці інструменти Extract, Transform і Load можуть генерувати завдання cron, фонові завдання, програми COBOL, сценарії оболонки тощо, які регулярно оновлюють дані в системі сховища даних. Ці інструменти також корисні для обслуговування метаданих.

Ці інструменти ETL повинні справлятися з проблемами неоднорідності бази даних і даних.

#3. Метадані

Термін «метадані» викликає в уяві образи високорівневих концепцій сховища технологічних даних. Однак це досить просто. Метадані — це інформація про дані, яка визначає систему сховищ даних. Він використовується для створення, підтримки та керування сховищами даних.

Мета-дані життєво важливі в архітектурі сховища даних, оскільки вони ідентифікують джерело, використання, значення та атрибути даних сховища даних. Він також визначає, як дані змінюються та обробляються. Він тісно пов’язаний із системою сховищ даних.

Наприклад, рядок у базі даних продажів може містити:

4030 KJ732 299.90

Це безглузді дані, доки ми не звернемося до Мета, яка скаже нам, що це так

  • Номер моделі: 4030
  • ID торгового агента: KJ732
  • Загальна сума продажів $299.90

У результаті метадані є критично важливими компонентами перетворення даних у знання.

За допомогою метаданих можна відповісти на такі запитання:

  • Які таблиці, характеристики та ключі є в сховищі даних?
  • Звідки інформація?
  • Як часто дані перезавантажуються?
  • Які очисні перетворення використовувалися?

Метадані можна розділити на такі категорії:

  • Технічні метадані: Цей тип метаданих містить інформацію про сховища, яка використовується розробниками та адміністраторами сховищ даних.
  • Бізнес-метадані: Цей тип метаданих містить деталі, які дозволяють кінцевим користувачам легко інтерпретувати інформацію, що міститься в системі сховища даних.

#4. Інструменти запитів

Однією з ключових цілей сховищ даних є надання організаціям інформації, яка допоможе їм приймати стратегічні рішення. Користувачі можуть взаємодіяти з системою сховища даних за допомогою інструментів запитів. Компоненти серверної частини — це інша назва менеджерів запитів. Він обробляє всі процеси, пов'язані з адмініструванням запитів користувачів. Операції компонента сховища даних полягають у направленні запитів до відповідних таблиць для планування запитів.

#5. Архітектура шини сховища даних

Потік даних у вашому сховищі визначається шиною Data Warehouse Bus. У системі сховищ даних потік даних класифікується як вхідний, висхідний, низхідний, вихідний і метапотік.

Створюючи шину даних, пам’ятайте про спільні параметри та факти для вітрин даних.

Вітрини даних:

Вітрина даних — це рівень доступу, який використовується для розповсюдження даних користувачам. Його сприяють як життєздатний вибір для великомасштабних сховищ даних, оскільки для його створення потрібно менше часу та грошей. Проте універсального визначення вітрини даних не існує, і воно різниться від людини до людини.

У двох словах, вітрина даних — це підрозділ сховища даних. Вітрина даних використовується для розділення даних, розроблених для певної групи споживачів.

Приклад сховища даних

Щоб отримати гарний приклад цього сховища даних, розглянемо виробника фітнес-обладнання. Її найбільш продаваним продуктом є стаціонарний велосипед, і компанія думає про розширення свого портфоліо та запуск нової маркетингової кампанії для його підтримки.

Він використовує свій процес сховища даних, щоб краще зрозуміти своїх поточних клієнтів. Він може визначити, чи є його споживачі переважно жінками старше 50 років чи хлопцями віком до 35 років. Крім того, він може допомогти вам дізнатися більше про магазини, які досягли найбільшого успіху в продажі своїх велосипедів, а також про те, де вони розташовані. . Він може вивчити результати внутрішніх опитувань і дізнатися, що подобалося, а що не подобалося в їхніх товарах колишнім клієнтам.

Уся ця інформація допомагає корпорації вирішити, які типи нових моделей велосипедів створити та як їх просувати та рекламувати. Він базується на достовірних даних, а не на інстинкті. З цим прикладом сховища даних я вважаю, що процес тепер буде легко зрозумілим.

Інструменти сховища даних

На ринку є багато інструментів для сховищ даних, але найпопулярніші типи включають:

#1. MarkLogic

MarkLogic є одним із найпопулярніших типів інструментів сховища даних, а також гарним прикладом цінного рішення для сховища даних, яке використовує різноманітні корпоративні можливості для полегшення та прискорення інтеграції даних. Цей інструмент допомагає у виконанні надзвичайно складних пошукових операцій у сховищі даних. Він може запитувати кілька видів даних, наприклад документи, зв’язки та метадані.

№ 2. Оракул

Oracle є найпопулярнішою базою даних галузі. Він надає різноманітні рішення для зберігання даних як для локального, так і для хмарного розгортання. Крім того, це сприяє кращому досвіду клієнтів, підвищуючи ефективність роботи. Він також є одним із популярних типів інструментів сховища даних для пробної версії.

#3. Amazon RedShift

Amazon Redshift — програма для зберігання даних. Це простий і недорогий інструмент для аналізу різних форм даних за допомогою традиційного SQL і існуючих інструментів BI. Він також дозволяє виконувати складні запити до петабайтів структурованих даних за допомогою техніки оптимізації запитів.

Що таке сховище даних проти бази даних?

Сховище даних відрізняється від бази даних такими ознаками:

  • База даних — це транзакційна система, яка аналізує та оновлює дані в режимі реального часу, щоб забезпечити доступність лише найновішої інформації.
  • Сховище даних призначене для збору структурованих даних у часі.

База даних, наприклад, може містити лише останню адресу клієнта, тоді як сховище даних може зберігати всі адреси клієнта за попередні десять років.

Які чотири етапи сховища даних?

Раніше компанії починали з досить простих програм для зберігання даних. Проте з часом з’явилися більш складні програми для зберігання даних.

Нижче наведено загальні типи етапів використання сховища даних (DWH):

#1. Офлайн оперативна база даних

У цей момент дані просто копіюються з однієї операційної системи в іншу. Завантаження, обробка та звіт про скопійовані дані не впливають на продуктивність операційної системи.

#2. Offline Data Warehouse

Datawarehouse регулярно отримує оновлення з операційної бази даних. Дані Datawarehouse відображаються та змінюються для виконання завдань Datawarehouse.

#3. Сховище даних реального часу

На цьому кроці сховища даних оновлюються щоразу, коли відбувається транзакція в операційній базі даних, наприклад, система бронювання авіакомпанії чи поїзда.

#4. Інтегроване сховище даних

DataWarehouse регулярно оновлюються на цьому рівні, коли операційна система здійснює транзакцію. Після цього Datawarehouse генерує транзакції, які згодом повертаються до операційної системи.

Які характеристики сховища даних?

Предметно-орієнтований, часовий, інтегрований, та енергонезалежний це чотири типи або приклади характеристик сховища даних, широко відомих як функції сховища даних.

Які сім 7 функцій складування?

  • зберігання
  • Охорона товарів
  • Транспортування вантажів
  • Фінансування
  • Послуги з грошовою оцінкою
  • Стабілізація цін
  • Управління інформацією

Які є два типи складування?

громадськості та приватний склади - це два основних типи складів.

Яке призначення сховища даних?

Сховище даних – це централізований збір даних, які можна вивчати для прийняття кращих рішень. Дані надходять до сховища даних на регулярній основі з транзакційних систем, реляційних баз даних та інших джерел.

Які 4 основні функції в складі?

Яким би не був продукт, кожен склад його переміщує, зберігає, відстежує та відправляє. Обладнання для зберігання, транспортування матеріалів, пакування та транспортування, а також обладнання для штрих-коду є чотирма ключовими категоріями обладнання, які виходять із цих чотирьох видів діяльності.

Які три 3 процеси використовуються в сховищі даних?

Процес Flow у сховищі даних включає такі кроки:

  • Дані повинні бути витягнуті та завантажені.
  • Очищення та перетворення даних.
  • Дані повинні бути резервні копії та архівовані.

На закінчення

Сховище даних – це збір інформації про бізнес компанії та її результативність протягом певного часу. Це джерело аналізу, яке розкриває минулі досягнення та невдачі компанії та керує прийняттям рішень. Він був створений за участю співробітників у кожному з основних відділів.

посилання

залишити коментар

Ваша електронна адреса не буде опублікований. Обов'язкові поля позначені * *

Вам також може сподобатися