DATA WAREHOUSE: definitie en hoe het werkt

Datawarehouse
Data kanaal

We kunnen gemakkelijk een "datawarehouse" definiëren als de veilige elektronische opslag van informatie door een bedrijf of andere organisatie. Het doel van een datawarehouse is het bouwen van een opslagplaats van historische gegevens die kunnen worden opgehaald en onderzocht om nuttig inzicht te verschaffen in de activiteiten van de organisatie. Er is diverse informatie over een datawarehouse en dit artikel zal op zijn beurt dienen als gids om gedetailleerde informatie te geven over waar het allemaal om draait, inclusief de typen, de gebruikte tools en een voorbeeld om mee te werken. Laten we in detail treden. 

Wat is een datawarehouse?

Datawarehousing, ook wel enterprise datawarehouse (EDW) genoemd, is een systeem dat gegevens uit verschillende bronnen verzamelt in één centrale, consistente gegevensopslag om gegevensanalyse, datamining, kunstmatige intelligentie (AI) en machine learning mogelijk te maken. Deze term stelt een organisatie in staat om complexe analyses uit te voeren op enorme hoeveelheden historische gegevens (petabytes en petabytes) op manieren die een gewone database niet kan.

Datawarehousing-systemen maken al meer dan drie decennia deel uit van business intelligence (BI)-oplossingen, maar ze hebben zich de laatste tijd ontwikkeld naarmate er nieuwe datatypes en datahostingtechnologieën opkwamen. We kunnen ook zeggen dat datawarehousing traditioneel on-premises werd gehost, vaak op een mainframecomputer, en dat de functionaliteit ervan was gericht op het verkrijgen van gegevens uit verschillende bronnen, het zuiveren en voorbereiden van de gegevens en het laden en onderhouden van de gegevens in een relationele database. Datawarehousing kan nu worden ondergebracht op een speciaal apparaat of in de cloud, en de meeste datawarehouses bieden ook analytische mogelijkheden en datavisualisatie- en presentatietools.

Hoe een datawarehouse werkt

Toen bedrijven begonnen te vertrouwen op computersystemen om kritieke zakelijke documenten te creëren, op te slaan en op te halen, groeide de behoefte aan datawarehousing. IBM-onderzoekers Barry Devlin en Paul Murphy kwamen in 1988 met het idee van gegevensopslag.

Data warehousing is bedoeld om het onderzoek van historische gegevens mogelijk te maken. Ook kunnen gegevens uit talrijke heterogene bronnen inzicht verschaffen in de prestaties van een bedrijf. Datawarehousing is bedoeld om gebruikers in staat te stellen query's en analyses uit te voeren op historische gegevens die zijn gegenereerd uit transactiebronnen.

De gegevens die aan het magazijn worden toegevoegd, veranderen niet en kunnen ook niet worden gewijzigd. Het magazijn is de bron van waaruit analyses van eerdere gebeurtenissen worden gedaan, met een focus op veranderingen in de loop van de tijd. In het magazijn opgeslagen gegevens moeten op een veilige, betrouwbare, opvraagbare en beheersbare manier worden opgeslagen.

Een datawarehouse onderhouden:

Om dit datawarehouse draaiende te houden, moeten enkele maatregelen worden genomen. Gegevensextractie is een fase die het verkrijgen van grote hoeveelheden gegevens uit verschillende bronnen vereist. Het opschonen van gegevens is het proces van het doornemen van een set gegevens op fouten en het corrigeren of uitsluiten van geïdentificeerde gegevens nadat deze zijn samengesteld.

De opgeschoonde gegevens worden vervolgens getransformeerd van databaseformaat naar warehousingformaat. Nadat ze in het magazijn zijn opgeslagen, worden de gegevens gesorteerd, geconsolideerd en samengevat om het gebruik te vergemakkelijken. Naarmate de verschillende gegevensbronnen worden bijgewerkt, worden er in de loop van de tijd aanvullende gegevens aan het magazijn toegevoegd.

WH Inmon's Creating the Data Warehouse, een praktisch handboek dat voor het eerst werd gepubliceerd in 1990 en meerdere keren opnieuw werd uitgegeven, is een belangrijk boek over datawarehousing.

Bedrijven kunnen nu investeren in cloudgebaseerde datawarehousing-softwareservices van onder meer Microsoft, Google, Amazon en Oracle.

Soorten datawarehouse

Er zijn drie hoofdtypen datawarehouses (DWH), die als volgt zijn:

#1. Enterprise-datawarehouse (EDW)

Een gecentraliseerd magazijn is een enterprise datawarehouse (EDW). Het biedt beslissingsondersteunende diensten door de hele organisatie. Het biedt ook een uniforme benadering van gegevensorganisatie en representatie. Het stelt u ook in staat om gegevens op onderwerp te categoriseren en toegang te verlenen op basis van die classificaties.

#2. Operationele gegevensopslag

Wanneer noch een datawarehouse, noch een OLTP-systeem kan voldoen aan de rapportagebehoeften van een organisatie, is een operationeel gegevensarchief of ODS vereist. Datawarehousing in ODS wordt in realtime vernieuwd. Als gevolg hiervan wordt het op grote schaal gebruikt voor alledaagse taken, zoals het bijhouden van werknemersgegevens.

#3. De datamart

Een datamart is een onderdeel van datawarehousing. Het is specifiek ontwikkeld voor een specifieke business line, zoals verkoop, financiën of verkoop. Gegevens kunnen rechtstreeks uit bronnen worden verzameld in een onafhankelijke datamart.

Wat zijn de 5 componenten van datawarehouse?

Er zijn vijf belangrijke Data Warehousing-componenten:

#1. Magazijn-database

De magazijnbeheerder is verantwoordelijk voor de operaties met betrekking tot gegevensbeheer in het magazijn. Het voert taken uit zoals data-analyse om de consistentie te verifiëren, het opbouwen van indexen en weergaven, denormalisatie en aggregatiegeneratie, transformatie en samenvoeging van brondata, en data-archivering en back-up.

#2. Hulpmiddelen voor sourcing, acquisitie, opschoning en transformatie (ETL)

De gegevensbron-, transformatie- en migratietechnologieën worden gebruikt in datawarehousing om alle conversies, samenvattingen en wijzigingen uit te voeren die nodig zijn om gegevens in één formaat te transformeren. Tools voor extraheren, transformeren en laden (ETL) zijn een andere naam voor hen.

Hun mogelijkheden omvatten:

  • Anonimiseer gegevens volgens wettelijke bepalingen.
  • Voorkomen dat ongewenste gegevens in operationele databases in het datawarehouse worden geladen.
  • Zoek en vervang algemene namen en definities voor gegevens die uit verschillende bronnen komen.
  • Samenvattingen en afgeleide gegevens berekenen
  • In het geval van ontbrekende gegevens, vult u ze in met standaardwaarden.
  • Gededupliceerde herhaalde gegevens die afkomstig zijn van meerdere gegevensbronnen.

Deze tools voor extraheren, transformeren en laden kunnen cron-taken, achtergrondtaken, COBOL-programma's, shell-scripts, enzovoort genereren die regelmatig gegevens in het datawarehouse-systeem bijwerken. Deze tools zijn ook handig voor het onderhoud van metadata.

Deze ETL-tools moeten omgaan met zorgen over database- en gegevensheterogeniteit.

#3. Metagegevens

De term "metadata" roept beelden op van hoogwaardige technologische datawarehousing-concepten. Het is echter vrij eenvoudig. Metadata is informatie over data die het datawarehousingsysteem definieert. Het wordt gebruikt voor het bouwen, onderhouden en beheren van data warehousing.

Metadata zijn van vitaal belang in de datawarehousing-architectuur omdat het de bron, het gebruik, de waarden en attributen van de datawarehousing-gegevens identificeert. Het specificeert ook hoe gegevens worden gewijzigd en behandeld. Het is nauw verbonden met het data warehousing systeem.

Een regel in de verkoopdatabase kan bijvoorbeeld het volgende bevatten:

4030 KJ732 299.90

Dit zijn betekenisloze gegevens totdat we de meta raadplegen die ons vertelt dat het zo was

  • Modelnummer: 4030
  • Verkoopagent-ID: KJ732
  • Totaal verkoopbedrag van $ 299.90

Als gevolg hiervan zijn metagegevens cruciale componenten in de transformatie van gegevens in kennis.

Met metadata kunnen de volgende vragen worden beantwoord:

  • Welke tabellen, kenmerken en sleutels zijn er in het Data Warehouse?
  • Waar kwam de informatie vandaan?
  • Hoe vaak worden gegevens opnieuw geladen?
  • Welke reinigingstransformaties werden gebruikt?

Metadata kunnen worden onderverdeeld in de volgende categorieën:

  • Technische metagegevens: Dit type metadata omvat magazijninformatie die wordt gebruikt door ontwerpers en beheerders van datawarehousing.
  • Zakelijke metadata: Dit type metadata bevat details waarmee eindgebruikers de informatie in het datawarehousing-systeem gemakkelijk kunnen interpreteren.

#4. Hulpmiddelen voor zoekopdrachten

Een van de belangrijkste doelen van datawarehousing is om organisaties te voorzien van informatie om hen te helpen strategische beslissingen te nemen. Gebruikers kunnen communiceren met het datawarehouse-systeem via querytools. Backend-componenten zijn een andere naam voor querymanagers. Het behandelt alle processen die verband houden met het beheer van gebruikersverzoeken. De bewerkingen van de datawarehousingcomponent zijn om query's naar de juiste tabellen te leiden voor queryplanning.

#5. Datawarehouse Bus Architectuur

De datastroom in uw warehouse wordt bepaald door de Data Warehouse Bus. In het gegevensopslagsysteem wordt de gegevensstroom geclassificeerd als instroom, opwaartse stroom, neerwaartse stroom, uitstroom en metastroom.

Houd bij het maken van een databus rekening met de gedeelde dimensies en feiten tussen datamarts.

Datamarts:

Een datamart is een toegangslaag die wordt gebruikt om gegevens naar gebruikers te distribueren. Het wordt gepromoot als een haalbare keuze voor grootschalige datawarehouses omdat het minder tijd en geld kost om te bouwen. Toch bestaat er geen universele definitie van een datamart en verschilt deze van persoon tot persoon.

Kort gezegd is een datamart een onderdeel van een datawarehouse. De datamart wordt gebruikt voor datapartitionering die is ontwikkeld voor een bepaalde groep consumenten.

Voorbeeld van een datawarehouse

Neem een ​​fabrikant van fitnessapparatuur om een ​​goed voorbeeld van dit datawarehouse te krijgen. Het best verkochte product is een hometrainer en het bedrijf overweegt zijn portfolio uit te breiden en een nieuwe marketingcampagne te lanceren om dit te ondersteunen.

Het gebruikt zijn datawarehousingproces om zijn huidige klanten beter te begrijpen. Het kan bepalen of de consumenten voornamelijk vrouwen ouder dan 50 jaar of jongens onder de 35 jaar zijn. Het kan je ook helpen meer te weten te komen over de winkels die het grootste succes hebben gehad bij het verkopen van hun fietsen, en ook waar ze zich bevinden . Het kan mogelijk interne onderzoeksresultaten onderzoeken en leren wat voormalige klanten leuk en niet leuk vonden aan hun artikelen.

Al deze informatie helpt het bedrijf bij het beslissen welk type nieuwe fietsmodel moet worden gemaakt en hoe deze moet worden gepromoot en geadverteerd. Het is gebaseerd op harde gegevens in plaats van op onderbuikgevoel. Met dit voorbeeld van een datawarehouse denk ik dat het proces nu gemakkelijk te begrijpen zal zijn.

Datawarehouse-tools

Er zijn tal van datawarehouse-tools op de markt, maar de meest populaire typen zijn:

#1. MarkLogic

MarkLogic is een van de meest populaire soorten datawarehouse-tools en ook een goed voorbeeld van een waardevolle datawarehousing-oplossing die een verscheidenheid aan bedrijfsmogelijkheden gebruikt om data-integratie eenvoudiger en sneller te maken. Deze tool helpt bij het uitvoeren van uiterst complexe zoekacties in een datawarehouse. Het kan verschillende soorten gegevens opvragen, zoals documenten, relaties en metagegevens.

#2. Orakel

Oracle is de populairste database in de branche. Het biedt een breed scala aan datawarehousing-oplossingen voor zowel on-premises als cloudimplementaties. Het draagt ​​ook bij aan betere klantervaringen door de operationele efficiëntie te verbeteren. Het komt ook binnen als een van de populaire soorten datawarehouse-tools om uit te proberen.

#3. Amazon RedShift

Amazon Redshift is een applicatie voor datawarehousing. Het is een eenvoudige en goedkope tool voor het analyseren van verschillende soorten gegevens met behulp van conventionele SQL en bestaande BI-tools. Het maakt ook de uitvoering van gecompliceerde query's op petabytes aan gestructureerde gegevens mogelijk via de query-optimalisatietechniek.

Wat is een datawarehouse versus database?

Een datawarehouse verschilt op de volgende punten van een database:

  • Een database is een transactiesysteem dat real-time gegevens analyseert en bijwerkt om ervoor te zorgen dat alleen de meest actuele informatie beschikbaar is.
  • Een datawarehouse is ontworpen om in de loop van de tijd gestructureerde gegevens te verzamelen.

Een database kan bijvoorbeeld alleen het meest actuele adres van een klant bevatten, terwijl een datawarehouse alle adressen van de klant van de afgelopen tien jaar kan opslaan.

Wat zijn de vier stadia van datawarehousing?

Vroeger begonnen bedrijven met vrij eenvoudige toepassingen voor datawarehousing. Toch ontstonden er in de loop van de tijd complexere toepassingen voor datawarehousing.

Hieronder volgen de algemene soorten fasen in het gebruik van een datawarehouse (DWH):

#1. Offline operationele database

Op dit moment worden gegevens eenvoudig van het ene besturingssysteem naar het andere gekopieerd. Het laden, verwerken en rapporteren van gekopieerde gegevens heeft geen invloed op de prestaties van het operationele systeem.

#2. Offline datawarehouse

Het Datawarehouse ontvangt regelmatig updates vanuit de Operationele Database. Datawarehouse-gegevens worden in kaart gebracht en gewijzigd om aan de doelstellingen van Datawarehouse te voldoen.

#3. Realtime datawarehouse

Datawarehouses worden in deze stap bijgewerkt wanneer er een transactie plaatsvindt in de operationele database, bijvoorbeeld een reserveringssysteem voor een luchtvaartmaatschappij of trein.

#4. Geïntegreerd datawarehouse

DataWarehouses worden regelmatig op dit niveau bijgewerkt wanneer het besturingssysteem een ​​transactie uitvoert. Daarna genereert het Datawarehouse transacties, die vervolgens worden teruggegeven aan het operationele systeem.

Wat zijn de kenmerken van een datawarehouse?

Vakgericht, tijdsvariant, geïntegreerd, en niet-vluchtig zijn de vier typen of voorbeelden van datawarehouse-kenmerken, algemeen bekend als datawarehousing-functies.

Wat zijn de zeven 7 functies van magazijnbeheer?

  • Opbergen
  • Bescherming van goederen
  • Vervoer van goederen
  • Financiering
  • Diensten met een geldelijke waarde
  • Stabilisatie van prijzen
  • Beheer van informatie

Wat zijn de twee soorten opslag?

Publieke en privaat magazijnen zijn de twee belangrijkste soorten magazijnen.

Wat is het doel van datawarehouse?

Datawarehousing is de gecentraliseerde verzameling van gegevens die kunnen worden bestudeerd om betere beslissingen te nemen. Gegevens stromen regelmatig naar een datawarehouse vanuit transactiesystemen, relationele databases en andere bronnen.

Wat zijn de 4 basisfuncties in een magazijn?

Wat het product ook is, elk magazijn verplaatst het, slaat het op, houdt het bij en verzendt het. Opslag, materiaalbehandeling, verpakking en verzending, en barcodeapparatuur zijn de vier belangrijkste categorieën apparatuur die voortkomen uit deze vier activiteiten.

Wat zijn de drie 3 processen die worden gebruikt in een datawarehouse?

Het proces van Flow in het datawarehouse omvat de volgende stappen:

  • De gegevens moeten worden geëxtraheerd en geladen.
  • Gegevens opschonen en transformeren.
  • Gegevens moeten worden geback-upt en gearchiveerd.

Concluderend

Datawarehousing is het verzamelen van informatie over de activiteiten van een bedrijf en hoe het in de loop van de tijd heeft gepresteerd. Het is de bron van analyse die de prestaties en mislukkingen uit het verleden van het bedrijf onthult en de besluitvorming begeleidt. Het is gemaakt met inbreng van medewerkers in elk van de kernafdelingen.

Referenties

Laat een reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd *

Dit vind je misschien ook leuk