KHO DỮ LIỆU: Định nghĩa và cách thức hoạt động

Kho dữ liệu
kênh dữ liệu

Chúng tôi có thể dễ dàng định nghĩa “kho dữ liệu” là kho lưu trữ thông tin điện tử an toàn của một doanh nghiệp hoặc tổ chức khác. Mục đích của kho dữ liệu là xây dựng một kho lưu trữ dữ liệu lịch sử có thể được truy xuất và kiểm tra để cung cấp thông tin chi tiết hữu ích về các hoạt động của tổ chức. Có nhiều thông tin khác nhau về kho dữ liệu và bài viết này sẽ đóng vai trò là hướng dẫn cung cấp thông tin chi tiết về nội dung của kho dữ liệu, bao gồm các loại, công cụ liên quan và ví dụ để làm việc. Hãy đi vào chi tiết. 

Kho dữ liệu là gì?

Kho dữ liệu, còn được gọi là kho dữ liệu doanh nghiệp (EDW), là một hệ thống thu thập dữ liệu từ nhiều nguồn vào một kho lưu trữ dữ liệu nhất quán, trung tâm, duy nhất để hỗ trợ phân tích dữ liệu, khai thác dữ liệu, trí tuệ nhân tạo (AI) và máy học. Thuật ngữ này cho phép một tổ chức thực hiện các phân tích phức tạp trên một lượng lớn dữ liệu lịch sử (petabyte và petabyte) theo cách mà cơ sở dữ liệu thông thường không thể làm được.

Các hệ thống kho dữ liệu đã là một phần của các giải pháp kinh doanh thông minh (BI) trong hơn ba thập kỷ, nhưng gần đây chúng đã phát triển khi các loại dữ liệu và công nghệ lưu trữ dữ liệu mới xuất hiện. Chúng ta cũng có thể nói rằng kho dữ liệu được lưu trữ tại chỗ theo truyền thống—thường là trên máy tính lớn—và chức năng của nó tập trung vào việc lấy dữ liệu từ nhiều nguồn khác nhau, tinh lọc và chuẩn bị dữ liệu cũng như tải và duy trì dữ liệu trong cơ sở dữ liệu quan hệ. Giờ đây, kho dữ liệu có thể được lưu trữ trên một thiết bị chuyên dụng hoặc trên đám mây và hầu hết các kho dữ liệu cũng bao gồm khả năng phân tích cũng như các công cụ trình bày và trực quan hóa dữ liệu.

Cách thức hoạt động của kho dữ liệu

Khi các doanh nghiệp bắt đầu dựa vào hệ thống máy tính để tạo, lưu trữ và truy xuất các tài liệu kinh doanh quan trọng, nhu cầu về kho dữ liệu ngày càng tăng. Các nhà nghiên cứu của IBM là Barry Devlin và Paul Murphy đã đưa ra khái niệm lưu trữ dữ liệu vào năm 1988.

Kho dữ liệu nhằm mục đích cho phép kiểm tra dữ liệu lịch sử. Ngoài ra, dữ liệu được thu thập từ nhiều nguồn không đồng nhất có thể cung cấp thông tin chi tiết về hoạt động của công ty. Kho dữ liệu nhằm mục đích cho phép người dùng thực hiện các truy vấn và phân tích trên dữ liệu lịch sử được tạo từ các nguồn giao dịch.

Dữ liệu được thêm vào kho không thay đổi và không thể thay đổi. Kho là nguồn thực hiện các phân tích về các sự kiện trước đó, tập trung vào các thay đổi theo thời gian. Dữ liệu được lưu trữ phải được lưu trữ một cách an toàn, đáng tin cậy, có thể truy xuất và quản lý được.

Duy trì kho dữ liệu:

Để giữ cho kho dữ liệu này hoạt động, một số biện pháp phải được thực hiện. Khai thác dữ liệu là một giai đoạn đòi hỏi phải thu được lượng dữ liệu khổng lồ từ nhiều nguồn. Làm sạch dữ liệu là quá trình duyệt qua một tập hợp dữ liệu để tìm lỗi và sửa chữa hoặc loại trừ bất kỳ lỗi nào được xác định sau khi dữ liệu được biên dịch.

Dữ liệu đã được làm sạch sau đó được chuyển đổi từ định dạng cơ sở dữ liệu sang định dạng kho lưu trữ. Sau khi được lưu trữ trong kho, dữ liệu được sắp xếp, hợp nhất và tóm tắt để dễ sử dụng hơn. Khi các nguồn dữ liệu khác nhau được cập nhật, dữ liệu bổ sung sẽ được thêm vào kho theo thời gian.

WH Inmon's Tạo kho dữ liệu, một cuốn sổ tay thực hành được xuất bản lần đầu vào năm 1990 và được tái bản nhiều lần, là một cuốn sách quan trọng về kho dữ liệu.

Các doanh nghiệp hiện có thể đầu tư vào các dịch vụ phần mềm lưu trữ dữ liệu dựa trên đám mây của Microsoft, Google, Amazon và Oracle, cùng những dịch vụ khác.

Các loại kho dữ liệu

Có ba loại Kho dữ liệu chính (DWH), như sau:

#1. Kho dữ liệu doanh nghiệp (EDW)

Kho tập trung là kho dữ liệu doanh nghiệp (EDW). Nó cung cấp các dịch vụ hỗ trợ quyết định trong toàn tổ chức. Ngoài ra, nó cung cấp một cách tiếp cận thống nhất để tổ chức và biểu diễn dữ liệu. Nó cũng cho phép bạn phân loại dữ liệu theo chủ đề và cấp quyền truy cập dựa trên các phân loại đó.

#2. Lưu trữ dữ liệu hoạt động

Khi cả kho dữ liệu và hệ thống OLTP đều không thể đáp ứng nhu cầu báo cáo của tổ chức, thì cần phải có kho lưu trữ dữ liệu vận hành hoặc ODS. Kho dữ liệu trong ODS được làm mới theo thời gian thực. Do đó, nó được sử dụng rộng rãi cho các nhiệm vụ thông thường như lưu giữ thông tin chi tiết về nhân viên.

#3. Siêu thị dữ liệu

Data mart là một phân khu của kho dữ liệu. Nó được phát triển riêng cho một ngành kinh doanh cụ thể, chẳng hạn như bán hàng, tài chính hoặc bán hàng. Dữ liệu có thể được thu thập trực tiếp từ các nguồn trong một siêu thị dữ liệu độc lập.

5 Thành phần của Kho dữ liệu là gì?

Có năm thành phần lưu trữ dữ liệu chính:

#1. cơ sở dữ liệu kho

Người quản lý kho phụ trách các nghiệp vụ liên quan đến quản lý dữ liệu trong kho. Nó thực hiện các tác vụ như phân tích dữ liệu để xác minh tính nhất quán, xây dựng chỉ mục và chế độ xem, không chuẩn hóa và tạo tổng hợp, chuyển đổi và hợp nhất dữ liệu nguồn cũng như lưu trữ và sao lưu dữ liệu.

#2. Công cụ tìm nguồn cung ứng, mua lại, dọn dẹp và chuyển đổi (ETL)

Các công nghệ nguồn dữ liệu, chuyển đổi và di chuyển được sử dụng trong kho dữ liệu để thực hiện tất cả các chuyển đổi, tóm tắt và thay đổi cần thiết để chuyển đổi dữ liệu thành một định dạng duy nhất. Công cụ Trích xuất, Chuyển đổi và Tải (ETL) là tên gọi khác của chúng.

Khả năng của họ bao gồm:

  • Ẩn danh dữ liệu theo quy định.
  • Loại bỏ dữ liệu không mong muốn trong cơ sở dữ liệu hoạt động khi tải vào Kho dữ liệu.
  • Tìm kiếm và thay thế các tên và định nghĩa phổ biến cho dữ liệu đến từ các nguồn khác nhau.
  • Tính toán tóm tắt và dữ liệu dẫn xuất
  • Trong trường hợp thiếu dữ liệu, hãy điền dữ liệu mặc định vào chúng.
  • Dữ liệu lặp lại được loại bỏ trùng lặp đến từ nhiều nguồn dữ liệu.

Các công cụ Trích xuất, Chuyển đổi và Tải này có thể tạo các tác vụ định kỳ, công việc nền, chương trình COBOL, tập lệnh shell, v.v. để cập nhật dữ liệu trong hệ thống kho dữ liệu một cách thường xuyên. Những công cụ này cũng hữu ích cho việc bảo trì Siêu dữ liệu.

Các Công cụ ETL này phải giải quyết các vấn đề về cơ sở dữ liệu và tính không đồng nhất của dữ liệu.

#3. metadata

Thuật ngữ “siêu dữ liệu” gợi lên hình ảnh về các khái niệm kho dữ liệu công nghệ cấp cao. Tuy nhiên, nó khá đơn giản. Siêu dữ liệu là thông tin về dữ liệu xác định hệ thống kho dữ liệu. Nó được sử dụng để xây dựng, duy trì và quản lý kho dữ liệu.

Siêu dữ liệu rất quan trọng trong kiến ​​trúc kho dữ liệu vì nó xác định nguồn, cách sử dụng, giá trị và thuộc tính của dữ liệu kho dữ liệu. Nó cũng chỉ định cách dữ liệu được thay đổi và xử lý. Nó được liên kết chặt chẽ với hệ thống kho dữ liệu.

Ví dụ: một dòng trong cơ sở dữ liệu bán hàng có thể chứa:

4030 KJ732 299.90

Đây là một dữ liệu vô nghĩa cho đến khi chúng tôi tham khảo Meta cho chúng tôi biết đó là

  • Số mô hình: 4030
  • ID đại lý bán hàng: KJ732
  • Tổng số tiền bán hàng là $299.90

Do đó, Siêu dữ liệu là các thành phần quan trọng trong quá trình chuyển đổi dữ liệu thành kiến ​​thức.

Các câu hỏi sau đây có thể được trả lời bằng siêu dữ liệu:

  • Có những bảng, đặc điểm và khóa nào trong Kho dữ liệu?
  • Thông tin đến từ đâu?
  • Dữ liệu được tải lại thường xuyên như thế nào?
  • Những biến đổi làm sạch nào đã được sử dụng?

Siêu dữ liệu có thể được chia thành các loại sau:

  • Dữ liệu Meta kỹ thuật: Loại Siêu dữ liệu này bao gồm thông tin kho được sử dụng bởi các nhà thiết kế và quản trị kho dữ liệu.
  • Siêu dữ liệu kinh doanh: Loại Siêu dữ liệu này chứa thông tin chi tiết cho phép người dùng cuối dễ dàng diễn giải thông tin chứa trong hệ thống kho dữ liệu.

#4. Công cụ truy vấn

Một trong những mục tiêu chính của kho dữ liệu là cung cấp cho các tổ chức thông tin để giúp họ đưa ra các quyết định chiến lược. Người dùng có thể tương tác với hệ thống kho dữ liệu thông qua các công cụ truy vấn. Các thành phần phụ trợ là tên gọi khác của trình quản lý truy vấn. Nó xử lý tất cả các quy trình được kết nối với việc quản trị các yêu cầu của người dùng. Các hoạt động của thành phần kho dữ liệu là hướng các truy vấn đến các bảng thích hợp để lập lịch trình truy vấn.

#5. Kiến trúc Bus kho dữ liệu

Luồng dữ liệu trong kho của bạn được xác định bởi Bus kho dữ liệu. Trong hệ thống kho dữ liệu, luồng dữ liệu được phân loại thành Luồng vào, Luồng lên, Luồng xuống, Luồng ra và Luồng meta.

Khi tạo Bus dữ liệu, hãy ghi nhớ các kích thước và dữ kiện được chia sẻ trên các siêu thị dữ liệu.

Kho dữ liệu:

Data mart là một lớp truy cập được sử dụng để phân phối dữ liệu cho người dùng. Nó được quảng cáo là một lựa chọn khả thi cho các kho dữ liệu quy mô lớn vì nó cần ít thời gian và tiền bạc hơn để xây dựng. Tuy nhiên, không có định nghĩa chung về data mart và nó thay đổi tùy theo từng người.

Tóm lại, data mart là một bộ phận của kho dữ liệu. Data mart được sử dụng để phân vùng dữ liệu được phát triển cho một nhóm người tiêu dùng nhất định.

Ví dụ về kho dữ liệu

Để có một ví dụ điển hình về kho dữ liệu này, hãy xem xét một nhà sản xuất thiết bị thể dục. Sản phẩm bán chạy nhất của công ty là một chiếc xe đạp cố định và công ty đang nghĩ đến việc mở rộng danh mục đầu tư của mình và tung ra một chiến dịch tiếp thị mới để hỗ trợ sản phẩm này.

Nó sử dụng quy trình lưu trữ dữ liệu của mình để hiểu rõ hơn về khách hàng hiện tại của mình. Nó có thể xác định xem người tiêu dùng của nó chủ yếu là phụ nữ trên 50 tuổi hay đàn ông dưới 35 tuổi. Ngoài ra, nó có thể giúp bạn tìm hiểu thêm về những cửa hàng bán xe đạp thành công nhất cũng như vị trí của họ . Nó có thể kiểm tra kết quả khảo sát nội bộ và tìm hiểu những gì khách hàng cũ thích và không thích về mặt hàng của họ.

Tất cả những thông tin này hỗ trợ công ty trong việc quyết định nên tạo ra loại xe đạp mẫu mới nào cũng như cách quảng bá và quảng cáo chúng. Nó dựa trên dữ liệu cứng hơn là bản năng ruột thịt. Với ví dụ về kho dữ liệu này, tôi tin rằng quy trình bây giờ sẽ dễ hiểu.

Công cụ kho dữ liệu

Có rất nhiều công cụ kho dữ liệu trên thị trường, nhưng các loại phổ biến nhất bao gồm:

# 1. MarkLogic

MarkLogic là một trong những loại công cụ kho dữ liệu phổ biến nhất và cũng là một ví dụ điển hình về giải pháp kho dữ liệu có giá trị sử dụng nhiều khả năng của doanh nghiệp để giúp tích hợp dữ liệu dễ dàng và nhanh hơn. Công cụ này hỗ trợ thực hiện các hoạt động tìm kiếm cực kỳ phức tạp trong kho dữ liệu. Nó có thể truy vấn một số loại dữ liệu, chẳng hạn như tài liệu, mối quan hệ và siêu dữ liệu.

#số 2. Oracle

Oracle là cơ sở dữ liệu phổ biến nhất trong ngành. Nó cung cấp một loạt các giải pháp lưu trữ dữ liệu cho cả triển khai tại chỗ và đám mây. Ngoài ra, nó góp phần mang lại trải nghiệm tốt hơn cho khách hàng bằng cách nâng cao hiệu quả hoạt động. Nó cũng là một trong những loại công cụ kho dữ liệu phổ biến để dùng thử.

#3. Amazon RedShift

Amazon Redshift là một ứng dụng lưu trữ dữ liệu. Đây là một công cụ đơn giản và chi phí thấp để phân tích các dạng dữ liệu khác nhau bằng cách sử dụng SQL thông thường và các công cụ BI hiện có. Nó cũng cho phép thực hiện các truy vấn phức tạp trên hàng petabyte dữ liệu có cấu trúc thông qua kỹ thuật tối ưu hóa truy vấn.

Kho dữ liệu so với Cơ sở dữ liệu là gì?

Kho dữ liệu khác với cơ sở dữ liệu ở các điểm sau:

  • Cơ sở dữ liệu là một hệ thống giao dịch phân tích và cập nhật dữ liệu theo thời gian thực để đảm bảo rằng chỉ có thông tin cập nhật nhất.
  • Kho dữ liệu được thiết kế để thu thập dữ liệu có cấu trúc theo thời gian.

Ví dụ, cơ sở dữ liệu có thể chỉ bao gồm địa chỉ mới nhất của khách hàng, trong khi kho dữ liệu có thể lưu trữ tất cả địa chỉ của khách hàng trong mười năm trước.

Bốn giai đoạn của kho dữ liệu là gì?

Trước đây, các công ty bắt đầu với các ứng dụng lưu trữ dữ liệu khá đơn giản. Tuy nhiên, các ứng dụng lưu trữ dữ liệu phức tạp hơn đã xuất hiện theo thời gian.

Sau đây là các loại giai đoạn chung trong việc sử dụng kho dữ liệu (DWH):

#1. Cơ sở dữ liệu hoạt động ngoại tuyến

Tại thời điểm này, dữ liệu chỉ được sao chép từ hệ điều hành này sang hệ điều hành khác. Tải, xử lý và báo cáo dữ liệu được sao chép không ảnh hưởng đến hiệu suất của hệ điều hành.

#2. Kho dữ liệu ngoại tuyến

Kho dữ liệu nhận được các bản cập nhật thường xuyên từ Cơ sở dữ liệu hoạt động. Dữ liệu của Datawarehouse được ánh xạ và thay đổi để đáp ứng các mục tiêu của Datawarehouse.

#3. Kho dữ liệu thời gian thực

Kho dữ liệu được cập nhật ở bước này bất cứ khi nào một giao dịch xảy ra trong cơ sở dữ liệu hoạt động, ví dụ, hệ thống đặt vé máy bay hoặc xe lửa.

#4. Kho dữ liệu tích hợp

DataWarehouses được cập nhật thường xuyên ở cấp độ này khi hệ điều hành thực hiện giao dịch. Sau đó, Datawarehouse tạo ra các giao dịch, sau đó được đưa trở lại hệ thống vận hành.

Các đặc điểm của kho dữ liệu là gì?

Định hướng theo chủ đề, thay đổi theo thời gian, tích hợp,không bay hơi là bốn loại hoặc ví dụ về các đặc điểm của kho dữ liệu, thường được gọi là các tính năng của kho dữ liệu.

Bảy 7 chức năng của Kho bãi là gì?

  • Kho
  • Bảo vệ hàng hóa
  • vận chuyển hàng hóa
  • Tài chính
  • Dịch vụ có giá trị tiền tệ
  • Bình ổn giá
  • Quản lý thông tin

Hai loại kho bãi là gì?

Công khai riêng kho là hai loại kho chính.

Mục đích của kho dữ liệu là gì?

Kho dữ liệu là tập hợp dữ liệu tập trung có thể được nghiên cứu để đưa ra quyết định tốt hơn. Dữ liệu chảy vào kho dữ liệu một cách thường xuyên từ các hệ thống giao dịch, cơ sở dữ liệu quan hệ và các nguồn khác.

4 chức năng cơ bản trong kho là gì?

Bất kể sản phẩm nào, mọi nhà kho đều di chuyển, cất giữ, theo dõi và gửi đi. Lưu trữ, xử lý vật liệu, đóng gói và vận chuyển, và thiết bị mã vạch là bốn loại thiết bị chính xuất phát từ bốn hoạt động này.

Ba 3 Quy trình được sử dụng trong Kho dữ liệu là gì?

Quy trình của Flow trong datawarehouse bao gồm các bước sau:

  • Dữ liệu phải được trích xuất và tải.
  • Làm sạch và chuyển đổi dữ liệu.
  • Dữ liệu nên được sao lưu và lưu trữ.

Trong kết luận

Kho dữ liệu là việc thu thập thông tin về hoạt động kinh doanh của một công ty và cách thức hoạt động của nó theo thời gian. Nó là nguồn phân tích tiết lộ những thành tựu và thất bại trong quá khứ của công ty và hướng dẫn việc ra quyết định. Nó được tạo ra với đầu vào từ các nhân viên trong mỗi bộ phận cốt lõi của nó.

dự án

Bình luận

Chúng tôi sẽ không công khai email của bạn. Các ô đánh dấu * là bắt buộc *

Bạn cũng có thể thích