DATA WAREHOUSING: definitie, typen, voorbeelden en tools

DATA WAREHOUSING: definitie, typen, voorbeelden en tools
Fotocredit: Freepik.com

Datawarehousing is cruciaal voor organisaties om grote hoeveelheden data efficiënt te rapporteren en te analyseren op verschillende niveaus, waaronder klantenservice, partnerintegratie en uitvoerende beslissingen. Het begrijpen van deze concepten is essentieel.

Laten we in dit artikel enkele belangrijke datawarehousing-concepten bekijken om het belang van gegevensopslag te begrijpen.

Wat is gegevensopslag? 

Een datawarehouse is de plaats waar een bedrijf of andere organisatie vertrouwelijke elektronische gegevens opslaat. De activiteiten van een organisatie kunnen beter worden begrepen door gebruik te maken van de historische gegevens die een datawarehouse wil verzamelen en organiseren.

Daarnaast is een cruciaal onderdeel van business intelligence een datawarehouse. Deze bredere term omvat de informatie infrastructuur die moderne bedrijven gebruiken om hun eerdere successen en mislukkingen bij te houden en hun toekomstige beslissingen te sturen.

Merk op dat: 

  • Een datawarehouse is waar een bedrijf of andere organisatie informatie in de loop van de tijd opslaat.
  • Mensen van verschillende belangrijke afdelingen, waaronder marketing en sales, voegen periodiek nieuwe gegevens toe.
  • Het magazijn verandert in een opslagplaats van historische gegevens die kunnen worden geraadpleegd en geanalyseerd om te helpen bij het nemen van zakelijke beslissingen.
  • Het bepalen van de informatie die essentieel is voor de organisatie en het lokaliseren van de informatiebronnen zijn sleutelcomponenten bij het creëren van een succesvol datawarehouse.
  • Een database is ontworpen om real-time gegevens te verstrekken. Er wordt een datawarehouse gemaakt als opslagplaats voor oude gegevens.

Hoe werkt datawarehousing?

Datawarehousing, in 1988 geïntroduceerd door IBM-onderzoekers Barry Devlin en Paul Murphy, is een hulpmiddel voor het analyseren van historische gegevens uit verschillende bronnen. Het stelt gebruikers in staat om query's en analyses uit te voeren op transactiegegevens, wat inzicht geeft in de prestaties van een bedrijf.

Merk op dat de gegevens die aan het magazijn worden toegevoegd statisch en onveranderlijk zijn. Daarnaast dient het magazijn als gegevensbron voor historische analyses, met de nadruk op aanpassingen door de jaren heen. Gegevens die zijn opgeslagen, moeten worden opgeslagen op een manier die veilig, betrouwbaar, opvraagbaar en beheersbaar is.

Soorten datawarehouses

#1. Enterprise-datawarehouse (EDW):

Een gecentraliseerd magazijn, een enterprise datawarehouse (EDW) genaamd, biedt beslissingsondersteunende diensten aan de hele organisatie. Bovendien bestaan ​​EDW's meestal uit verschillende databases die een uniforme methode bieden voor het classificeren en organiseren van gegevens op onderwerp.

#2. Operationele gegevensopslag (ODS):

De centrale database van een enterprise datawarehouse voor operationele rapportage en besluitvorming staat bekend als een ODS (EDW). Bovendien, terwijl EDW tactische en strategische beslissingen ondersteunt, is het een aanvullend onderdeel dat real-time updates biedt voor routinetaken zoals personeelsdossiers.

#3. datamart:

Een datamart is een subset van een datawarehouse dat zich richt op een specifiek team of een specifieke business line. Bovendien biedt het snelle toegang tot specifieke gegevens, waardoor gebruikers kritische inzichten kunnen verkrijgen zonder tijd te verspillen aan het doorzoeken van het volledige datawarehouse.

Wat zijn de 3 stadia van datawarehousing? 

#1. Offline-database:

Op dit punt worden gegevens verplaatst van de systemen die worden gebruikt voor dagelijkse activiteiten naar een externe server voor back-up. Lopende operaties, zoals laden en rapporteren, worden niet gehinderd door de data.

  • Offline datawarehouse:

De gegevens zijn op dit moment niet altijd gegarandeerd actueel. Vanuit de operationele database worden de gegevens regelmatig bijgewerkt (wekelijks, maandelijks, enz.).

#2. Realtime datawarehouse:

Elke keer dat er een transactie plaatsvindt in de operationele database, worden de datawarehouses bijgewerkt. Daarnaast worden op gebeurtenissen gebaseerde triggers gebruikt om gegevens te verzamelen en het datawarehouse te waarschuwen wanneer records moeten worden bijgewerkt. Een reservering van een vliegticket is een illustratie.

#3. Geïntegreerd datawarehouse:

Op dit punt ontvangen de datawarehouses elke keer dat er een bewerking wordt uitgevoerd door de operationele systemen een update. Om de meest recente gegevens te verstrekken en verstoringen in de gegevensverzameling te voorkomen, geven ze deze ook terug aan de operationele systemen. Merk op dat deze fase van de gegevens het meest bijgewerkt en veilig is. Als gevolg hiervan wordt deze stap als de meest betrouwbare beschouwd.

Hoe bouw je een eenvoudig datawarehouse? 

Stap 1: Bepaal de bedrijfsdoelstellingen

Het bedrijf groeit snel en heeft behoefte aan een uitgebalanceerd team van administratief, verkoop-, productie- en ondersteunend personeel. De effectiviteit van het vergroten van de overhead, het verbeteren van het verkoopteam en het balanceren van een nationale en regionale focus moet worden beoordeeld door de belangrijkste besluitvormers. 

Dit omvat de eigenaar, president en vier belangrijke managers die middelen, contacten, verkoopkansen en personeel delen terwijl ze toezicht houden op profit centers. Bovendien moet het systeem meer informatie, zoals contractgrootte, correleren met de factoren die leiden tot grotere contracten en weloverwogen beslissingen nemen. De organisatie wordt geleid door belangrijke prestatie-indicatoren zoals verkochte eenheden, brutowinst, nettowinst, bestede uren, onderwezen studenten en herhaalde studentenregistraties.

Stap 2: Verzamel en analyseer informatie

Leiders moeten informatie over prestaties verkrijgen door middel van vragen en het verzamelen van gegevens uit verschillende bronnen, waaronder boekhoudsoftware, CRM-software en tijdregistratiesystemen. Analisten, managers en administratieve assistenten kunnen analytische en samenvattende rapporten maken met over het hoofd geziene gegevens. Het kan voor ontwerpers van datawarehouses moeilijk zijn om deze informatie te verzamelen, maar het is essentieel om het bestaan ​​ervan te begrijpen en te begrijpen hoe deze wordt verzameld en verwerkt. 

Bovendien is het begrijpen van het proces en het doel ervan essentieel voor het ontwerpen van een datawarehouse, omdat het de automatisering van rapportagetaken mogelijk maakt zonder de betrokken personen te identificeren en te begrijpen.

Stap 3: Identificeer kernbedrijfsprocessen:

Vind de entiteiten die samenwerken om de indicatoren te creëren om de belangrijkste prestatie-indicatoren in een datawarehouse te correleren. Bij een trainingsverkoop zijn bijvoorbeeld tal van menselijke en commerciële factoren betrokken, waaronder klanten, instructeurs, nieuwe productintroducties, promoties en het aannemen van nieuwe verkopers. De key performance indicators worden voor een bepaald bedrijfsproces opgeslagen in het datawarehouse, dat ze ook correleert met de factoren die er toe hebben geleid. 

Bovendien worden deze indicatoren opgeslagen in feitentabellen en worden er dimensietabellen gemaakt om ze te koppelen aan de dimensies die ze hebben geproduceerd. 

Stap 4: Construeer een conceptueel gegevensmodel:

Nadat u de bedrijfsprocessen hebt geïdentificeerd, kunt u een conceptueel model van de gegevens maken. Je kiest de onderwerpen die als feitentabellen worden geïntroduceerd en de dimensies die aan de feiten worden gekoppeld. Stel het opslagformaat van de informatie en de belangrijkste prestatie-indicatoren voor elk bedrijfsproces in detail vast. Houd er rekening mee dat aangezien de gegevens worden gecombineerd om OLAP-kubussen te vormen, deze een consistente meeteenheid moeten hebben. 

Bovendien, hoewel het misschien eenvoudig lijkt, is het proces dat niet. U moet bijvoorbeeld een valuta selecteren als de organisatie internationaal is en contant geld bij zich heeft. De volgende stap is om te beslissen wanneer en tegen welke wisselkoers u andere valuta's omrekent naar de valuta die u hebt geselecteerd. 

Stap 5: Lokaliseer gegevensbronnen en plan gegevenstransformaties:

Om gegevens in een datawarehouse effectief te beheren, identificeert u kritieke informatiebronnen en verplaatst u deze naar een geconsolideerde, consistente structuur. Bovendien omvat dit het correleren van informatie tussen interne CRM en tijdrapportagedatabases, evenals het opschonen van de gegevens om nauwkeurige analyse te garanderen. Dit kan wanneer u: 

  • Zorg ervoor dat de brongegevens volledig zijn voordat u deze gebruikt, programmatisch of handmatig. 
  • Bepaal de meest kosteneffectieve manier om gegevens te corrigeren en voorspel die kosten als onderdeel van de systeemkosten. 
  • Voer gegevenstransformaties uit met tools zoals Data Transformation Services (DTS) en houd rekening met de kosten van training en onderhoud. 
  • Plan data-extractie om de impact op systeemgebruikers te minimaliseren en de data-integriteit te waarborgen.

Stap 6: Trackingduur instellen:

Data-archivering moet in de loop van de tijd consistent zijn, omdat datawarehouses veel opslagruimte nodig hebben. Door gedeelde dimensies kunnen verschillende datastructuren met verschillende korrels met elkaar in verband worden gebracht. Gegevens die in de loop van de tijd zijn samengevat, kunnen in verschillende indelingen worden opgeslagen, waaronder dag, week of maandelijks.

Bovendien kunnen analytische tools, afhankelijk van de ouderdom van de gegevens, werken met verschillende korrelgroottes en kunnen geïmporteerde oudere historische gegevens worden omgezet in het juiste formaat.

Stap 7: Implementeer het plan:

Ontwikkel een plan voor datawarehouse-projecten om werk- en planningsfasen in te schatten. Implementeer een datamart om de mogelijkheden van het systeem te laten zien, door nieuwe datastructuren te integreren terwijl ze als een legpuzzel in elkaar passen. Deze aanpak zorgt voor projectsucces en behoudt de reikwijdte van grote datawarehouse-projecten.

Bovendien hebben besluitvormers dankzij datawarehouse-systemen toegang tot geconsolideerde, consistente historische gegevens over de activiteiten van hun organisatie. Met zorgvuldige planning kan het systeem cruciale informatie verschaffen over hoe variabelen op elkaar inwerken om de organisatie ten goede te komen of in gevaar te brengen. De kosten kunnen worden beheerst en deze krachtige tool kan werkelijkheid worden met een goed doordacht plan.

De 10 beste datawarehouse-tools in 2023

Er zijn talloze tools voor datawarehousing die cloudgebaseerd zijn. Het selecteren van de beste datawarehouse-tools voor ons project wordt daardoor een uitdaging. De top 10 tools voor datawarehousing zijn als volgt:  

#1. Amazone roodverschuiving: 

Amazon Redshift is een cloudgebaseerd datawarehouse dat petabytes aan gegevens kan verwerken en snel query's kan uitvoeren met behulp van op SQL gebaseerde clients en BI-tools. Bovendien integreert het met AWS en ondersteunt het open data-export, waardoor platformacceptatie en acclimatisatie eenvoudig wordt.

#2. Microsoft Azure: 

Microsoft begon Het bouwen, testen, implementeren en beheren van applicaties en services is allemaal mogelijk op het openbare cloud computing-platform dat bekend staat als Azure. Azure biedt Infrastructure as a Service (IaaS), Platform as a Service (PaaS) en Software as a Service (SaaS) onder zijn meer dan 200 producten en services. 

Bovendien biedt het draagbaarheid, integratie en een veilige basis voor zowel operationele veiligheid als fysieke infrastructuur. Webapplicaties, services en Restful API's kunnen worden gehost en beheerd door Azure Apps.

#3. Google BigQuery: 

BigQuery is een serverloos datawarehouse met ANSI SQL- en machine learning-mogelijkheden, ontwikkeld in 2010. Daarnaast is het een cloudgebaseerde analyseservice die geschikt is voor grote alleen-lezen datasets en automatische schaalservices biedt voor naadloze integratie met bestaande applicaties en IT-investeringen .

#4. Sneeuwvlok: 

Een cloudgebaseerd datawarehouse-platform genaamd Snowflake wordt gemaakt met behulp van Microsoft Azure of Amazon Web Services. De verwerking van SQL-gegevens wordt eenvoudiger gemaakt door de onafhankelijke opslag- en schaalmogelijkheden voor berekeningen. Bovendien biedt Snowflake schaalbare, dynamische rekenkracht met op gebruik gebaseerde kosten. Met een opslagwaarde vergelijkbaar met Amazon S3, biedt het afzonderlijke berekening en opslag. 

Bovendien maakt Snowflake het ruimtevrij klonen van databases, tabellen en schema's mogelijk. Er kunnen echter verwijzingen naar de opgeslagen gegevens worden gemaakt.

#5. Microfocus Vertica: 

Voor big data-workloads is Micro Focus Vertica een zelfbewaakte MPP-database die schaalbaarheid, flexibiliteit en geavanceerde analyses biedt. Bovendien vergemakkelijken de kolomgeoriënteerde methodologie en het uniforme analytische magazijn bewerkingen zoals netwerkoptimalisatie, klantherkenning, voorspellend onderhoud en economische naleving.

#6. Amazon DynamoDB: 

Amazon DynamoDB is een eigen NoSQL-datawarehouse-service die sleutelwaarde- en documentgegevensstructuren ondersteunt. Het maakt deel uit van Amazon Web Services en biedt hoge beschikbaarheid, betrouwbaarheid en progressieve schaalbaarheid. 

Bovendien is DynamoDB ontworpen voor OLTP-gebruiksscenario's en analytische query's en is het afgestemd op de waarden van serverloze toepassingen van automatisch schalen, betalen per wat u gebruikt, eenvoud en geen servers om te beheren. Merk op dat het veel wordt gebruikt voor serverloze applicaties die op AWS draaien.

#7. PostgreSQL: 

Een robuust databasebeheersysteem met meer dan 20 jaar gemeenschapsontwikkeling is PostgreSQL. Het dient als de belangrijkste gegevensopslagplaats voor georuimtelijke, analyse-, mobiele en webtoepassingen. Een complexere versie van SQL, PostgreSQL, ondersteunt functies zoals triggers, subquery's en externe sleutels. 

Daarnaast is het ook geschikt voor datawarehousing- en analysetoepassingen, business intelligence-software en OLTP- en OLAP-systemen die snelle lees- en schrijfbewerkingen nodig hebben.

#8. Amazon S3: 

Amazon S3 is een NoSQL-opslagservice die stabiliteit, toegankelijkheid, prestaties, beveiliging en onbeperkte schaalbaarheid biedt tegen lage prijzen. Bovendien ondersteunt het omvangrijke, ongestructureerde en semi-gestructureerde gegevens, maakt het gebruikersorganisatie mogelijk en biedt het abonnementstoegang tot vergelijkbare systemen. Hoewel het langzamer is dan DynamoDB, zet het de standaard voor zakelijke cloudopslag.

#9. teradata: 

Voor big data warehousing-toepassingen is Teradata een populair relationeel databasebeheersysteem dat parallellisme en een MPP-architectuur gebruikt om de belasting te verlichten en inzichtelijke resultaten te produceren. Bovendien voldoet het aan de integratie- en ETL-vereisten door gegevens op te nemen, te verwerken en te beheren via een intuïtieve interface.

#10. Amazon RDS: 

Het schalen van relationele databases op de AWS Cloud wordt mogelijk gemaakt door RDS, een PaaS-cloudgegevensopslagservice. Het biedt ook hardware die betaalbaar is voor het beheer van moeilijke taken zoals software-installatie, opslag, replicatie en noodherstel. 

Bovendien ondersteunt RDS zes database-engines: Amazon Aurora, PostgreSQL, MySQL, MariaDB, Oracle Information en SQL Server, evenals drie instantieklassen.

Wat is SQL-gegevensopslag? 

SQL Data Warehouse is een Enterprise Data Warehouse (EDW) dat complexe query's over petabytes aan gegevens snel uitvoert dankzij Massively Parallel Processing (MPP). 

Maak bovendien gebruik van een SQL Data Warehouse als cruciaal onderdeel van een big data-oplossing. Kolomopslag wordt door het SQL Data Warehouse gebruikt om gegevens op te slaan in relationele tabellen, waardoor de kosten voor gegevensopslag worden verlaagd en de queryprestaties worden verbeterd. Houd er rekening mee dat om gegevensverwerking over verschillende knooppunten te verdelen, SQL Data Warehouse gebruikmaakt van een scale-out-architectuur.

Wat is een datawarehouse in ETL? 

ETL, wat staat voor Extract, Transform en Load, is een proces dat wordt gebruikt in datawarehousing om gegevens uit verschillende bronnen te verzamelen, deze te formatteren om in een magazijn te laden en vervolgens daar te laden. 

Wat zijn de Etl-concepten? 

Het proces van ETL kan worden onderverdeeld in de volgende drie fasen:

#1. extractie: 

Gegevensextractie uit verschillende bronnen, waaronder transactiesystemen, spreadsheets en platte bestanden, is de eerste stap in het ETL-proces. Het uitlezen van informatie uit de originele systemen en het opbergen in een verzamelplaats is onderdeel van deze stap.

#2. Transformeren: 

De geëxtraheerde gegevens worden door dit proces gebracht in een formaat dat in het datawarehouse kan worden geladen. Denk hierbij aan het transformeren van datatypen, het combineren van data uit verschillende bronnen, het opschonen en valideren van de data en het creëren van nieuwe datavelden.

#3. Laden: 

Gegevens worden na transformatie in het datawarehouse geladen. In deze stap worden de fysieke datastructuren gemaakt en worden de data in het magazijn geladen.

Wat is het verschil tussen een database en een datawarehouse? 

In tegenstelling tot een datawarehouse, dat wordt gebruikt om zowel actuele als historische gegevens voor een of meer systemen op te slaan met een vooraf gedefinieerd en vast schema voor analysedoeleinden, slaan databases de gegevens op die nodig zijn om vandaag een applicatie te laten draaien. 

Een database is een geplande groepering van gegevens die is georganiseerd en doorgaans elektronisch op een computer wordt bewaard. Merk op dat een databasebeheersysteem (DBMS) doorgaans toezicht houdt op een database.

Wat zijn de concepten van datawarehousing?

Hier zijn enkele sleutelconcepten met betrekking tot datawarehousing:

#1. Data bronnen: 

Gegevens uit operationele databases, externe gegevensbronnen, platte bestanden en andere bronnen worden vaak gecombineerd in datawarehouses. Merk op dat ETL (extraheren, transformeren en laden) wordt gebruikt om deze gegevens in het datawarehouse te laden.

#2. Datamodellering: 

Het proces van het maken van een schema dat de gegevens in het datawarehouse aangeeft, staat bekend als datamodellering. Maak daarom dimensies (zoals tijd, product en klant) en feitentabellen met meetwaarden (bijv. verkoop, omzet en winst)

#3. Gegevens integratie: 

De methode voor het integreren van gegevens uit meerdere bronnen in één enkele, uniforme weergave staat bekend als gegevensintegratie. Bovendien kunnen inconsistenties in de gegevens worden verholpen en kunnen de gegevens worden opgeschoond en aangepast aan het gegevensmodel.

#4. Data opslag: 

Een relationeel databasebeheersysteem (RDBMS) wordt vaak gebruikt in datawarehouses om gegevens op te slaan. Voor effectieve query's worden de gegevens geïndexeerd en georganiseerd in tabellen.

#5. Toegang tot data: 

Business intelligence (BI)-tools, zoals rapportage- en analysesoftware, kunnen worden gebruikt om toegang te krijgen tot gegevens in het datawarehouse. Merk op dat gebruikers van deze tools de gegevens kunnen opvragen, rapporten kunnen maken en inzichten kunnen weergeven.

#6. Gegevensbeheer: 

Data governance verwijst naar de processen, het beleid en de benchmarks die zorgen voor de betrouwbaarheid, consistentie en naleving van de gegevens in het datawarehouse. Houd er rekening mee dat validatie van gegevensprivacy, gegevensbeveiliging en gegevensbeveiliging hierin allemaal zijn inbegrepen.

#7. datamart: 

Een data MART is een deel van het datawarehouse dat is gemaakt om een ​​bepaalde organisatie-eenheid of divisie te ondersteunen. Een deel van de gegevens uit het datawarehouse wordt gekozen en vervolgens worden aanvullende transformaties toegepast die uniek zijn voor de bedrijfsfunctie om datamarts te creëren.

Wat is clouddatawarehousing?

Een datawarehouse in de cloud is een beheerde servicedatabase die is voorbereid voor schaalbare business intelligence en analyse in een openbare cloud.

Bovendien zorgt datawarehousing in de cloud voor de dynamische groei en inkrimping van datawarehouses om te voldoen aan veranderende zakelijke budgetten en vereisten. Het slaat informatie op uit verschillende bronnen, zoals IoT, CRM en financiële systemen, en biedt gestructureerde, uniforme gegevens voor verschillende gebruiksscenario's voor business intelligence en analyse.

Wat is Azure Datawarehousing?

Gegevens uit verschillende bronnen, zoals klanttransacties of zakelijke toepassingen, worden doorgaans opgeslagen in OTP-databases, netwerkshares, Azure Storage Blobs of datalakes. De analytische datastore-laag wordt gebruikt om te voldoen aan analyse- en rapportagevragen met betrekking tot het datawarehouse. 

Daarnaast biedt Azure analytische opslagmogelijkheden via Synapse, HDInsight, Hive of Interactive Query. Orkestratie is vereist voor het verplaatsen van gegevens of het kopiëren van opslag naar het datawarehouse met behulp van Azure Data Factory of Oozie.

Wat is Snowflake Data Warehousing?

De Snowflake Data Cloud combineert hoge prestaties, hoge concurrency, eenvoud en betaalbaarheid in een mate die niet mogelijk is met andere datawarehouses. Het is gebouwd met een gepatenteerde nieuwe architectuur om alle aspecten van gegevens en analyses te verwerken.

Bovendien integreert Snowflake opslag, computers en services, waardoor onafhankelijke uitbreiding en inkrimping mogelijk wordt, waardoor het responsiever en aanpasbaarder wordt. Bovendien maakt het gebruik van een centrale persistente datarepository en MPP-rekenclusters, waarbij elk knooppunt een deel van de dataset lokaliseert. 

Vereist datawarehousing codering?

Het programmeren, testen en debuggen van datawarehouses zijn allemaal verantwoordelijkheden van een datawarehouse-programmeerspecialist, naast het coderen en documenteren van procedures. Een bachelordiploma is noodzakelijk. Bovendien houdt een manager of hoofd van een eenheid of afdeling doorgaans toezicht op een programmeerspecialist voor datawarehouses.

GEGEVENS VAN EEN CONSUMENT: definitie, typen en hoe ze deze gebruiken

DATA SCIENTIST VS DATA ANALISTEN: volledige vergelijking 2023

WAT IS DATA SCIENCE: Gids voor Data Science en Analytics

WAT IS APACHE: Inzicht in een diepgaand overzicht van Apache Web Server

Referenties:

Instituut voor bedrijfsfinanciering 

Coursera

Investopedia

Laat een reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd *

Dit vind je misschien ook leuk