Database en datawarehouse: wat is het verschil?

Inhoudsopgave Verbergen

Wat is een database?
Database-use-cases
Database-professionals
Soorten databases
1. #1. relationeel
2. #2. Gedistribueerd
3. #3. Wolk
4. #4. Grafiek
5. #5. Geen SQL
Waarom ondervinden databases problemen?
Wat is een datawarehouse
Hoe werkt het datawarehouse?
Gebruiksscenario's voor datawarehouses
Datawarehouse-professionals
Soorten datawarehouse
Componenten van datawarehouse
Voordelen van datawarehouse
Nadelen van datawarehouse
Database versus datawarehouse
1. #1. OLTP versus OLAP
2. #2. Gebruik gevallen
3. #3. Rapportage en analyse
4. #4. Data structuur
5. #5. Service Level Agreements
6. #6. Optimalisatie
Is een datawarehouse groter dan een database?
Operationele database versus datawarehouse
Transactionele database versus datawarehouse
Data Lake versus database versus datawarehouse
Waarom geen datawarehouse gebruiken?
Conclusie
Veelgestelde vragen over databases en datawarehouses
Moet ik een datawarehouse of database gebruiken?
Is Mysql een database of datawarehouse?
Is Snowflake een datawarehouse?
Vergelijkbare artikelen
Referentie

Vinden er bij uw onderneming dagelijks veel zakelijke transacties plaats? Heeft u gegevens van voorgaande jaren die u wilt bestuderen om uw bedrijf succesvoller te maken? Geweldig! Dan heb je naast een datawarehouse ook een database nodig… Maar welke informatie hoort waar? Zowel een database als een datawarehouse zijn voorbeelden van verschillende soorten opslagsystemen. Ze worden echter voor heel andere doeleinden gebruikt. In dit artikel gaan we in op het verschil tussen relationeel, operationeel, transactioneel, datalake en datawarehouse.

Laten we snel de basisprincipes bespreken van hoe deze verschillende opslagsystemen werken en de situaties waarin ze nuttig kunnen zijn.

Wat is een database?

Een database slaat informatie of gegevens op een gecentraliseerde locatie op. Online transactieverwerking (OLTP) is gebaseerd op databases, die digitaal toegankelijk zijn voor gebruikers. Sinds de komst van geautomatiseerde gegevensopslag vertrouwen bedrijven op databasebeheersystemen. Een databasebeheersysteem (DBMS) is slechts een middel om gemakkelijke toegang tot informatie te bieden.

Relationele databasebeheersystemen (RDBMS) domineren de markt al tientallen jaren, dus als we het over databases hebben, bedoelen we bijna altijd een RDBMS. Bedrijven gebruiken ze omdat het sneller is om gegevens op te slaan en op te halen met behulp van een relationeel databasebeheersysteem.

Een database is ook een gesorteerde set informatie. Relationele databases slaan informatie op in "tabellen", die verzamelingen gegevens vormen die gerelateerde gegevens samen clusteren. In deze analogie vertegenwoordigt een tabel een raster met kolommen en rijen.

Elk record in een tabel, zoals een lijst met zendingen of een lijst met klanten, wordt weergegeven door een rij.
Gegevensvelden zoals de naam, het adres, het telefoonnummer, etc. van een klant kunnen worden gezien als kolommen in een tabel.
Kolommen, rijen en tabellen worden in een database allemaal gedefinieerd door een schema, dat een specificatie is van alle databaseonderdelen.

Online transactieverwerkingssystemen (OLTP) zijn sterk afhankelijk van databases als hun backend omdat ze records één voor één toevoegen, bijwerken en verwijderen. Aangezien records één voor één uit tabellen worden opgehaald, is de meest efficiënte manier om ze op te slaan in rijen, met indexen op sleutelvelden om het ophalen te versnellen.

Niet alle infrastructuren zijn echter afhankelijk van een transactiemodel. Het kan nuttig zijn om patronen te onderzoeken in gegevens die in de loop van de tijd zijn verzameld. Het is niet nodig om de waarden van bepaalde records te kennen. U hebt samenvattingen van gedrag nodig, zoals totaal uitgegeven bedragen en afgelegde afstand. Nogmaals, u moet snel handelen bij het verkrijgen van deze informatie.

Database-use-cases

Databases hebben, net als datawarehouses, verschillende praktische toepassingen op een groot aantal verschillende gebieden. Persoonlijke databases zijn een andere veel voorkomende toepassing. Een paar gevallen zijn als volgt:

Elektronisch gezondheidsdossier (EPD). Informatie over een patiënt kan al bij het eerste bezoek worden opgeslagen in een elektronisch patiëntendossier (EPD). Bij volgende bezoeken wordt de informatie vervolgens ververst. Deze gegevens zijn beschermd en privé terwijl ze op het platform worden gehost. Het herziet de geplande tijd en datum van de afspraak, evenals de huidige lijst met symptomen en diagnose van de patiënt. Elektronische medische dossiers stellen artsen ook in staat om hun gegevens vanaf elke locatie in te zien, zolang ze daarvoor toestemming hebben.
Aanbevelingen van consumenten. Een database wordt gebruikt door Netflix en Spotify om de shows en nummers die ze aanbieden bij te houden, evenals uw kijk- en luistergewoonten. NoSQL-databases slaan deze gegevens op en gebruiken deze om suggesties te doen over wat u vervolgens zou willen zien op basis van uw eerdere interacties.

Database-professionals

Experts op het gebied van datawetenschap zijn vaak degenen die professionele ervaring hebben met het werken met databases. Enkele veelvoorkomende beroepen op dit gebied worden hieronder beschreven. Houd er rekening mee dat de onderstaande functietitels per branche kunnen verschillen.

Database-architect. De taak van een database-architect is het maken en onderhouden van databases. Ze pionieren met nieuwe benaderingen van databasebeheer, ontwikkeling en bescherming. Hun belangrijkste doel is om de toegankelijkheid van gegevens te verbeteren voor gebruikers zoals gegevensanalisten, gegevenswetenschappers en ingenieurs. Het gemiddelde jaarsalaris voor een database-architect in de Verenigde Staten is $ 109,693. Wat is een databasebeheerder en hoe word je er een?

Database Administrator. De taak van een databasebeheerder is ervoor te zorgen dat de database soepel functioneert. Ze ontwerpen en implementeren databases om zaken als financiële gegevens, productspecificaties en bestelgegevens bij te houden. Databasebeheerders beheren ook machtigingen om ervoor te zorgen dat alleen geautoriseerde gebruikers toegang hebben tot de gegevens. Ook is het gemiddelde jaarloon voor een databasebeheerder in de Verenigde Staten $ 78,837.
Data-analist: om bedrijven te helpen met hun problemen, verzamelen, schonen en analyseren data-analisten datasets. Het jaarinkomen van een database-analist in de Verenigde Staten is gemiddeld $ 74,294.

Soorten databases

Er bestaan meerdere soorten databases. U kunt ze categoriseren als bibliografisch, full-text, numeriek of op afbeeldingen gebaseerd. Op het gebied van computers vallen databases gewoonlijk in groepen in overeenstemming met de structuur die ze gebruiken.

Hier zijn slechts enkele voorbeelden van belangrijke organisatorische databases:

#1. relationeel

Deze statistische methode beschrijft informatie op een manier die een flexibele organisatie en opvraging van gegevens mogelijk maakt. Tabellen zijn de bouwstenen van relationele databases. In die tabellen is informatie gestructureerd volgens vooraf bepaalde formaten. Elke kolom in een tabel slaat een bepaald soort informatie op en elke rij slaat een exemplaar van die informatie op. Een relationele database gebruikt echter rijen, kolommen en tabellen om gegevens over individuele klanten te rangschikken. Door ze te indexeren, wordt het zoeken met behulp van SQL- en NoSQL-query's vergemakkelijkt.

Ook worden interfaces voor gebruikers- en applicatieprogrammering voor relationele databases doorgaans in SQL geschreven. In een relationele database hoeft voor het toevoegen van een nieuw gegevenstype geen van de aangesloten programma's te worden herschreven. Gegevens in een relationele database worden beheerd, bevraagd en opgehaald met behulp van een relationeel databasebeheersysteem (RDBMS). Lees ook Wat zijn relationele databasebeheersystemen?.

Doorgaans stelt een RDBMS de gebruikers in staat om te beheren wie de database kan lezen en schrijven, en om rapporten te genereren en analyses uit te voeren. Om ervoor te zorgen dat alle transacties worden afgerond en dat alle gegevens consistent zijn, bieden bepaalde databases ondersteuning voor het ACID-model.

#2. Gedistribueerd

Deze database bevat bestanden of records op meer dan één plaats. Ook de verwerking van gegevens wordt verspreid en gekopieerd over het netwerk.

Homogeen gedistribueerde databases gebruiken dezelfde hardware op elk knooppunt en delen dezelfde softwarestack voor het beheer van en de toegang tot gegevens op verschillende knooppunten. Er bestaan ook heterogene groepen. In dergelijke situaties kunnen de meerdere locaties verschillende hardware, besturingssystemen en databaseprogramma's gebruiken.

#3. Wolk

Deze databases zijn gebouwd voor een virtuele setting in een publieke, private of hybride cloud. De hoeveelheid gegevens die voor een gebruiker wordt overgedragen en opgeslagen, bepaalt hun maandelijkse vergoeding. Ze worden ook geleverd met hoge beschikbaarheid en schaalbare bronnen. Deze databases zijn compatibel met SaaS-applicaties (software as a service).

#4. Grafiek

Deze registers zijn een voorbeeld van een niet-relationele database. Ze gebruiken grafentheoretische ideeën voor relationele opslag, mapping en query's. Knopen en randen zijn de bouwstenen van een grafische database. Entiteiten, of knooppunten, zijn de koppelingen tussen andere knooppunten.

Deze databases worden echter vaak gebruikt voor netwerkanalyse. Klantgegevens die zijn verzameld van de websites en socialemediaplatforms van een bedrijf, kunnen worden geanalyseerd met behulp van grafische databases.

De SPARQL-taal en -protocol worden gebruikt voor analyse in grafische databases. SPARQL kan gegevens analyseren op dezelfde manier als SQL, en het kan ook worden gebruikt voor semantische analyse, waarbij wordt gekeken naar verbanden tussen stukjes gegevens. Hierdoor kan het worden gebruikt voor analyse van datasets die zowel gestructureerde als ongestructureerde informatie bevatten. Met behulp van SPARQL kunnen gebruikers gegevens uit een relationele database analyseren, profiteren van vriend-van-een-vriend-verbindingen, PageRank en het kortste pad vinden.

#5. Geen SQL

NoSQL-databases blinken uit in het beheren van enorme hoeveelheden ongelijksoortige gegevens. Relationele databases hebben beperkingen die deze alternatieven kunnen overwinnen. Bovendien blinken ze uit in het evalueren van gegevens die zijn opgeslagen op cloud computing-infrastructuur en grote, ongestructureerde datasets. Niet-relationele databases is een andere naam voor dit soort databases.

Waarom ondervinden databases problemen?

Er zijn een paar consistente problemen die zich voordoen tijdens de installatie, het gebruik en het onderhoud van de database.

De gegevens van een bedrijf zijn activa die ten koste van alles moeten worden beschermd. Competent cyberbeveiligingspersoneel heeft expertise nodig om gegevensopslagplaatsen te beschermen, wat duur kan zijn.
Het hebben van betrouwbare gegevens is het resultaat van gegevensintegriteit. Gegevensintegriteit is moeilijk te bereiken, omdat de toegang tot de database moet worden beperkt tot alleen geautoriseerde gebruikers.
Het onderhouden en up-to-date houden van een database is essentieel voor een optimale efficiëntie. Wijzigingen in de onderliggende technologie of de gegevens in een database kunnen een negatieve invloed hebben op de bruikbaarheid als deze niet goed wordt ondersteund.
Het kan ook een uitdaging zijn om databases te integreren. Datameren en datawarehouses zijn twee voorbeelden van manieren waarop dit kan worden bereikt, evenals de consolidatie van verschillende databases.

Wat is een datawarehouse

Een datawarehouse is een centrale opslagplaats waarmee een organisatie toegang heeft tot gegevens van verschillende afdelingen en eenheden voor rapportage- en analysedoeleinden. Het datawarehouse wordt vervolgens gebruikt om rapporten te genereren met behulp van complexe query's. De rapporten worden door het management gebruikt bij het nemen van zakelijke beslissingen. In een datawarehouse kun je zien hoe de fysieke en logische datastores van verschillende systemen in elkaar passen.

De primaire functie van een datawarehouse is echter het centraliseren van gegevens uit vele bronnen, zodat deze kunnen worden opgevraagd, rapporten kunnen worden gegenereerd en zakelijke beslissingen kunnen worden genomen. Datawarehouses zijn de locaties voor OLAP (Online analytische verwerking). Deze vorm van verwerking houdt zich niet bezig met transacties, maar gebruikt complexe queries voor analyse.

De operationele database en de beslissingsondersteunende database (Data Warehouse) bevinden zich op volledig gescheiden locaties. Het datawarehouse is echter geen ding, maar een setting. Het maakt deel uit van de architectuur van een informatiesysteem dat is ontworpen om gebruikers gemakkelijke toegang tot en presentatie van gegevens te geven die anders moeilijk te vinden zouden zijn in een conventionele operationele database.

Hoe werkt het datawarehouse?

Een datawarehouse is een opslagplaats voor gegevens die afkomstig zijn uit verschillende andere bronnen. Het transactiesysteem en andere relationele databases zijn twee gegevensbronnen die naar een datawarehouse gaan.

Gegevens kunnen de vorm aannemen van:

Gestructureerde
Semi-gestructureerd
Ongestructureerde data

Business intelligence-tools, SQL-clients en spreadsheets hebben allemaal toegang tot de verwerkte gegevens die zijn opgeslagen in het datawarehouse nadat deze zijn getransformeerd en opgenomen. In een datawarehouse kan informatie uit tal van bronnen worden gecombineerd.

Een organisatie kan een vollediger inzicht krijgen in haar klanten door deze gegevens te centraliseren. Als gevolg hiervan kunt u er zeker van zijn dat het rekening heeft gehouden met alle beschikbare gegevens. Datamining is alleen mogelijk met een datawarehouse. Bij datamining is het doel om nuttige trends te ontdekken die de omzet en inkomsten kunnen verhogen.

Gebruiksscenario's voor datawarehouses

Er zijn veel verschillende toepassingen voor een datawarehouse in zakelijke omgevingen. Hun potentiële toepassingen kunnen sectorspecifiek zijn. Hier zijn twee voorbeelden:

Gezondheidszorg. Een datawarehouse kan informatie over patiënten opslaan die artsen kan helpen ziekten beter te diagnosticeren en de effectiviteit van verschillende behandelingen te beoordelen. Een datawetenschapper in de gezondheidszorg kan bijvoorbeeld de informatie onderzoeken die is opgeslagen in een datawarehouse om erachter te komen waarom chemotherapie vaker wordt gebruikt bij patiënten ouder dan 25 jaar met kanker.
Marketing. Een datawarehouse kan een marketingorganisatie helpen bij het monitoren van de resultaten van een campagne of de lancering van een nieuw product. Prestaties, verkoop en interacties met de klantenservice kunnen allemaal worden gecontroleerd met behulp van interne dashboards en rapporten.
Banking. De wijdverbreide acceptatie ervan in de banksector getuigt van de doeltreffendheid ervan bij het beheer van on-desk resources. Een selecte groep financiële instellingen gebruikte het ook voor analyse van product- en marktprestaties en marktonderzoek.
Publieke sector. De overheid vertrouwt op datawarehouses voor het verkrijgen van inlichtingen. Ook helpt het overheidsinstanties bij het bijhouden en analyseren van individuele belasting- en ziektekostenverzekeringsgegevens.

Datawarehouse-professionals

Professionals op het gebied van data science zijn degenen die in hun werk gebruik maken van datawarehouses. Carrières op dit gebied worden gedefinieerd in de volgende lijst. Houd er rekening mee dat de onderstaande functietitels enigszins kunnen verschillen van de ene sector naar de andere.

Business Intelligence (BI) analist. Datawarehouses zijn het brood en de boter van een business intelligence-analist, die ze gebruikt om bedrijfsbrede en afdelingsspecifieke zakelijke inzichten te bieden via datavisualisatie. Met behulp van datavisualisatie en programmeertalen zoals Python, SQL en Tableau bouwen ze rapporten, dashboards en andere visuele tools. Bovendien is het gemiddelde salaris voor een bedrijfsanalist in de Verenigde Staten $80,654.
Datawarehouse analist. De taak van een datawarehouse-analist omvat het onderzoeken en beoordelen van informatie die in een datawarehouse is opgeslagen. Op basis van hun bevindingen doen ze suggesties hoe de huidige dataopslag- en rapportageprocessen van het bedrijf beter kunnen. Bovendien kunnen ze hun bevindingen verzamelen en weergeven om te helpen bij andere gebieden van de activiteiten van het bedrijf. De gemiddelde jaarlijkse vergoeding voor een datawarehouse-analist in de Verenigde Staten is $ 81,010.
Datawarehouse ingenieur. Een persoon die als datawarehouse-ingenieur werkt, ontwikkelt en houdt toezicht op datawarehouse-plannen. Ze kunnen verantwoordelijk zijn voor het bepalen van projectparameters, het doorlichten van potentiële softwarepakketten en het begeleiden van de ontwikkeling van langetermijnstrategieën. Ook is het gemiddelde jaarinkomen voor een datawarehouse-ingenieur in de Verenigde Staten $ 95,760.

Soorten datawarehouse

Er zijn voornamelijk drie soorten datawarehouses of DWH's:

Enterprise Datawarehouse (Edw). In deze context verwijst "magazijn" naar een Enterprise Data Warehouse (EDW). Het wordt door werknemers in het hele bedrijf gebruikt om hen te helpen bij het nemen van beslissingen. Het biedt een gestandaardiseerde manier om informatie te ordenen en weer te geven. Het maakt het ook mogelijk om informatie op onderwerp te categoriseren, waardoor meer gedetailleerde toegangscontrole mogelijk is.
Operationele gegevensopslag. Wanneer noch het datawarehouse van een organisatie, noch de OLTP-systemen aan de rapportagevereisten kunnen voldoen, ontstaat de noodzaak van een operationele gegevensopslag (ook wel ODS genoemd). Datawarehouse in ODS wordt voortdurend bijgewerkt. Dit betekent dat het de beste optie is voor zaken als het bijhouden van personeelsdossiers en andere alledaagse administratieve taken.
Datamart. Het datawarehouse bevat de datamart als een specifiek onderdeel. Het is op maat gemaakt voor een bepaald vakgebied, zoals verkoop, financiën, verkoop of financiën. Een autonome datamart maakt dataverzameling rechtstreeks uit de bronnen mogelijk.

Componenten van datawarehouse

Dit zijn de drie componenten waaruit datawarehouses bestaan:

Warenhuis manager. De taken van de magazijnbeheerder omvatten het beheer van de gegevens die in het magazijn zijn opgeslagen. Het voert taken uit, waaronder controles van de consistentie van gegevens, het bouwen van indexen en weergaven, denormalisatie en aggregatie, transformatie en samenvoeging van brongegevens, archivering van gegevens en het bakken van gegevens.
Belastingbeheerder. De frontcomponent is een andere naam voor de loadmanager. Het voltooit alle taken die nodig zijn voor het extraheren en laden van gegevens in het magazijn. Om de data gereed te maken voor het datawarehouse, omvatten deze activiteiten ook transformaties.
Query beheerder. De term "backend-component" kan ook verwijzen naar de querymanager. Het beheert alle vragen van gebruikers en voert alle gerelateerde processen uit. Dit datawarehouse-onderdeel werkt door query's naar de juiste tabellen te sturen, zodat ze op de juiste momenten kunnen worden uitgevoerd.

Voordelen van datawarehouse

Hier zijn enkele voordelen van datawarehouses.

Bedrijven kunnen baat hebben bij een datawarehouse omdat het een grote verscheidenheid aan gegevens uit verschillende bronnen centraliseert en toegankelijk maakt.
Het datawarehouse levert betrouwbare data over een breed scala aan bedrijfsprocessen. Het maakt ook spontane vragen en rapporten mogelijk.
Het datawarehouse maakt de consolidatie van ongelijksoortige gegevensbronnen mogelijk, waardoor de productie-infrastructuur minder wordt belast.
Een datawarehouse kan de tijd die nodig is om analyses uit te voeren en rapporten te genereren, verkorten.
Wanneer gegevens worden gereorganiseerd en geïntegreerd, wordt het voor gebruikers handiger om rapporten uit te voeren en de gegevens te analyseren.
Gebruikers hebben toegang tot cruciale gegevens uit verschillende bronnen in een gecentraliseerd datawarehouse. Bijgevolg maakt het de gebruiker tijd vrij die voorheen werd besteed aan het doorzoeken van verschillende databases.
In het datawarehouse worden alle gegevens uit het verleden bewaard. Dit vergemakkelijkt het onderzoek van verschillende tijdframes en patronen met het oog op prognoses.

Nadelen van datawarehouse

Hier zijn enkele van de nadelen van datawarehouses.

Niet de beste keuze voor rommelige gegevens.
Het ontwikkelen en uitrollen van een datawarehouse is een moeizaam en tijdrovend proces.
De gegevens die in een magazijn zijn opgeslagen, kunnen heel snel oud worden.
Het wijzigen van gegevensbronnen, indexen en query's, evenals het wijzigen van gegevenstypen en -bereiken, kan een uitdaging zijn.
Het datawarehouse lijkt op het eerste gezicht eenvoudig, maar is voor de meeste consumenten eigenlijk te complex.
Data warehousing-projecten, hoe goed ze ook worden beheerd, duren steevast langer en bestrijken meer terrein dan oorspronkelijk gepland.
Gebruikers van het magazijn kunnen uiteindelijk met hun eigen bedrijfsvoorschriften komen.
Bedrijven moeten fors investeren in de leer- en implementatieprocessen.

Database versus datawarehouse

Een datawarehouse en een database hebben vergelijkbare doelen wat betreft het opslaan en beheren van gegevens. Er zijn echter enkele belangrijke verschillen die gemaakt moeten worden. Om te beginnen kunnen datawarehouses analyses doen. Ze bieden analytische vragen voor bedrijven om bepaalde statistieken te monitoren en erover te rapporteren. Een database daarentegen is slechts een gecentraliseerde opslagplaats voor informatie. De primaire functie van een database is het bieden van veilige, gemakkelijke opslag voor en toegang tot gegevens.

Bovendien werken een database en een datawarehouse samen om de enorme hoeveelheden informatie op te slaan en te organiseren die bedrijven dagelijks genereren. Een kledingfabrikant kan bijvoorbeeld klantgegevens in de ene database bewaren en websiteanalyses in een andere. Met een datawarehouse kunnen ze de twee datasets in de loop van de tijd vergelijken om patronen in consumentengedrag te zien.

Laten we de verschillen tussen deze twee opslagsystemen eens nader bekijken.

#1. OLTP versus OLAP

Eén type gegevensverwerkingssysteem staat bekend als online transactieverwerking (OLTP). Dit is het heersende model voor databases waarin operationele gegevens voor de meeste bedrijven zijn ondergebracht. OLTP dient om de snelle oplossing van dagelijkse zakelijke vragen te vergemakkelijken door gebruikers tijdig toegang te geven tot volledige en correcte gegevens.

Een gegevensverwerkingssysteem dat bekend staat als online analytische verwerking (OLAP) geeft prioriteit aan gegevensanalyse om besluitvorming te stimuleren boven prestaties en regelmatig gebruik. De integratie van OLAP-systemen met business intelligence-oplossingen vereenvoudigt de taak van het beantwoorden van vragen en het leveren van diepgaande rapporten aan zakelijke belanghebbenden voor niet-technische managers en leidinggevenden.

In de meeste gevallen is een database de beste OLTP-oplossing voor bedrijven die snel toegang willen tot hun gegevens. Voor datawetenschappers, BI-tools en andere grootschalige analytische use-cases is een OLAP-oplossing die zowel real-time als historische data kan aggregeren ideaal voor datawarehouse-systemen.

#2. Gebruik gevallen

Een Datawarehouse en database zijn niet uitwisselbaar en dienen zeer uiteenlopende doelen.

Kleine, discrete transacties zijn het brood en de boter van databases, omdat ze de dagelijkse activiteiten van een organisatie sturen. Een online ticketaankoop, een overschrijving van een bankrekening en het toevoegen van nieuwe patiëntgegevens zijn allemaal voorbeelden van dergelijke activiteiten.

Bovendien zijn vragen over het verleden, het heden en de toekomst van een bedrijf die een meer diepgaande studie vereisen, het meest geschikt voor datawarehouses. Dit omvat taken zoals datamining uit verschillende databases om voorheen onbekende inzichten over klantgewoonten en aankooptrends te ontdekken.

#3. Rapportage en analyse

Hoewel OLTP-databases enige rapportage en analyse mogelijk maken, is dit een grotere uitdaging vanwege het normale formaat van de gegevens. Bovendien slaan databases voor optimale prestaties vaak alleen de meest recente informatie op, waardoor het onmogelijk is om historische zoekopdrachten uit te voeren.

Datawarehouses daarentegen zijn speciaal gebouwde faciliteiten die in eerste instantie zijn ontwikkeld om rapportage en analyse te vergemakkelijken. Gegevens uit het heden en het verleden zijn beschikbaar voor gebruikers, waardoor de reikwijdte van mogelijke conclusies wordt vergroot.

#4. Data structuur

Informatie in databases is 'genormaliseerd'. Met normalisatie hoeft u zich geen zorgen te maken over het opnieuw opslaan van hetzelfde stukje informatie. Doordat het niet meer nodig is om dezelfde informatie op meerdere plaatsen op te slaan, wordt de database consistenter en daarmee betrouwbaarder.

Gegevensnormalisatie omvat het verdelen van de informatie in talloze tabellen. Afzonderlijke data-entiteiten worden vertegenwoordigd door tabellen. Een database die BOEKVERKOPEN bijhoudt, zou de gegevens bijvoorbeeld opsplitsen in drie tabellen: één voor BOEKdetails, één voor het ONDERWERP van elk boek en één voor de UITGEVER.

Door gegevens te standaardiseren, kunnen we garanderen dat onze database zowel geheugen- als schijfefficiënt zal zijn. Het is echter inefficiënt in termen van query's. Genormaliseerde databases kunnen vanwege hun structuur moeilijk te doorzoeken zijn. Gegevens in een datawarehouse worden vaak gedenormaliseerd en bevatten herhaalde gegevens voor gemakkelijke toegang, aangezien bedrijven ingewikkelde query's op die gegevens willen uitvoeren.

#5. Service Level Agreements

Aangezien databases worden gebruikt voor online transactieverwerking (OLTP), is hun beschikbaarheid van cruciaal belang en moet deze hoger zijn dan 99.9%. Wanneer databases voor online transactieverwerking (OLTP) uitvallen, kan dit grote problemen veroorzaken en mogelijk de activiteiten stopzetten.

Een datawarehouse wordt echter grotendeels gebruikt voor back-endanalyse, dus downtime is voor hen niet zo'n groot probleem. In feite hebben de meeste datawarehouses geplande onderhoudsvensters waarin nieuwe gegevens worden toegevoegd. Iedereen profiteert van de downtime omdat het snellere uploads mogelijk maakt in tijden dat gebruikers geen toegang tot gegevens nodig hebben. Door alles behalve de eerste levensbehoeften uit te schakelen, zal uw proces versnellen en nauwkeuriger worden.

#6. Optimalisatie

Wanneer gegevens worden bijgewerkt (toegevoegd, gewijzigd of verwijderd), is een database ontworpen om dit zo snel en efficiënt mogelijk te doen. Efficiëntie van transactieverwerking vereist razendsnelle reactietijden van databases. Een van de meest cruciale kenmerken van een database is de mogelijkheid om elke transactie die binnen het systeem plaatsvindt bij te houden, want zonder deze functie zou het bedrijf niet lang meegaan.

Terwijl een datawarehouse is ontworpen om in korte tijd een klein aantal complexe query's op een enorme, multidimensionale dataset te verwerken.

Is een datawarehouse groter dan een database?

Ja. Op al deze locaties is het mogelijk om met behulp van databasesoftware gegevens op te slaan; maar in termen van de hoeveelheid opgeslagen gegevens is een datawarehouse aanzienlijk groter dan een database. Het datawarehouse dient vooral voor datamining en data-analyse om besluitvormers te helpen.

Operationele database versus datawarehouse

Er zijn een paar verschillende soorten databasesystemen die aan verschillende behoeften in bedrijven voldoen, waaronder een operationeel DBMS en een datawarehouse.

Als het gaat om de dagelijkse bedrijfsvoering van een bedrijf, is alleen het beste voldoende als het gaat om een databasesysteem. Voor het beheer en de controle van de processen die de producten of diensten van de organisatie produceren en leveren, zijn deze systemen bedoeld voor transactieverwerking. Databasesystemen die actief worden gebruikt, zijn onder meer voor het beheer van klantrelaties, voorraadniveaus en bestellingen.

Een datawarehouse daarentegen is gebouwd om te helpen bij analytische en besluitvormingsprocessen binnen een bedrijf. Deze platforms worden gebruikt om informatie uit verschillende besturingssystemen samen te brengen in één samenhangend perspectief. Business intelligence, data-analyse en besluitvorming worden allemaal ondersteund door datawarehouses vanwege de goede manier waarop ze query's uitvoeren en rapporten genereren.

Hieronder volgen enkele van de meest opvallende verschillen tussen een datawarehouse en een operationeel databasesysteem:

Doel. Om alles soepel te laten verlopen, vertrouwen bedrijven op operationele databasesystemen, terwijl een datawarehouse helpt bij strategische planning en diepgaand onderzoek.
Data structuur. Gegevens in operationele databasesystemen zijn vaak standaard, of gestructureerd in talloze gerelateerde tabellen, om de kans op gegevensduplicatie te verminderen en de betrouwbaarheid van de gegevens die het bevat te vergroten. Datawarehouses gebruiken echter vaak een gedenormaliseerde datastructuur, wat betekent dat de informatie in minder, efficiëntere tabellen wordt opgeslagen voor rapportage- en analysedoeleinden.
Gegevensvolume. Een datawarehouse kan jaren aan gegevens bevatten, maar operationele databasesystemen hoeven alleen de meest recente gegevens bij te houden.
Prestatie. Operationele databases zijn geoptimaliseerd voor transactieverwerking met hoge volumes en hoge snelheid. Maar datawarehouses zijn gebouwd voor query's en rapportage en behandelen ingewikkelde analytische query's op enorme datasets.

Transactionele database versus datawarehouse

De fundamentele functie van een transactionele database is het vastleggen van gegevens, terwijl de belangrijkste functie van een datawarehouse-database het bieden van antwoorden is op analysevragen die cruciaal zijn voor het succes van uw bedrijf.

Technologieën voor online transactieverwerking (OLTP), inclusief transactiedatabases, zijn ontworpen om transacties in realtime vast te leggen en te verwerken. Neem het geval wanneer een klant contant geld ontvangt van een geldautomaat, maar de transactie niet wordt weergegeven in de administratie van de bank. De bank zou het niet redden als dit regelmatig zou blijven gebeuren. Het banksysteem is dus gestructureerd om ervoor te zorgen dat uw transactie wordt geregistreerd terwijl u bij de geldautomaat wacht. Omdat dit systeem is geoptimaliseerd voor schrijven, zijn query's (leesbewerkingen) traag.

Aan de andere kant is een datawarehouse (DW) een soort database die is gebouwd met het uitdrukkelijke doel om gegevensanalyse en query's gemakkelijker te maken. Gegevens in deze databases zijn alleen-lezen, maar kunnen op een meer tijd- en resource-efficiëntere manier worden opgevraagd en geanalyseerd dan databases die worden gebruikt in traditionele online transactieverwerkingstoepassingen (OLTP). In dit opzicht is een OLAP-systeem gemaakt om gemakkelijk te lezen door zijn gebruikers. Door uw business intelligence-oplossing gescheiden te houden van uw applicatiedatabase, kunt u voorkomen dat uw bank en geldautomaten offline gaan wanneer de CFO om een rapport vraagt.

Om de omstandigheid te voorkomen dat een beginnende gebruiker de databasediagrammen van de applicatie ontvangt en wordt verteld om de speld van gegevens te vinden in de spreekwoordelijke hooiberg van tabelproliferatie, is DW ook beter gespecificeerd en onderhouden. Het is ook sneller en betrouwbaarder in het beantwoorden van vragen.

Bovendien vereenvoudigen, standaardiseren en normaliseren DW's tabelstructuren, waardoor de analysekwaliteit verbetert. Zo behoudt u alleen de noodzakelijke gegevens in eenvoudigere, uitgebreid gedocumenteerde tabellen en vermindert u de tabelverbindingen en de complexiteit van query's, zoals later wordt getoond.

Data Lake versus database versus datawarehouse

Hier zijn enkele van de onderscheidende verschillen tussen deze drie opslagsystemen.

Structuur. Databases houden zich aan strikte schemabeperkingen en volgen een vooraf bepaalde structuur. Datawarehouses en datalakes daarentegen kunnen alle drie soorten gegevens opslaan (gestructureerd, semi-gestructureerd en ongestructureerd).
Doel. Transactieverwerking in realtime is waar databases echt uitblinken. Het primaire doel van een datawarehouse is het vergemakkelijken van analyse en rapportage. Gegevensverkenning en complexe analyses zijn slechts twee voorbeelden van wat er kan worden gedaan met de grondstoffen die zijn opgeslagen in een datameer.
Transformatie. Databases kunnen alleen ingestelde gegevens opslaan en vereisen uniformiteit in databaseschema's. Datawarehouses en datalakes bieden de flexibiliteit om schema's te wijzigen en gegevens on-the-fly te transformeren.
Geschiedenis. De meeste databases houden alleen recente informatie bij. Datawarehouses verzamelen en organiseren datasets uit het verleden voor gebruik bij het voorspellen van trends en het maken van goede keuzes. Om uitgebreide gegevensverkenning mogelijk te maken, kunnen datameren niet alleen historische gegevens bevatten, maar ook gegevens in realtime.

Waarom geen datawarehouse gebruiken?

Eenvoudig gezegd verwerken databases transactiegegevens voor operationele doeleinden, terwijl datawarehouses enorme hoeveelheden gegevens opslaan en analyseren voor strategische besluitvorming. Beslissingen en uitbreiding kunnen worden gevoed door alle beschikbare gegevens, van gebruikersinteracties op een website tot verkoop- en voorraadinformatie.

Conclusie

Kortom, zowel datawarehouses als databases zijn effectieve manieren om enorme hoeveelheden gegevens op te slaan. Beide zijn uiterst waardevol in de zakenwereld, maar hun voordelen verschillen. Hun waarde in de huidige op informatie gebaseerde economie is immens. Deze vindingrijkheid is echter afhankelijk van de doelstellingen van een bedrijf.

Veelgestelde vragen over databases en datawarehouses

Moet ik een datawarehouse of database gebruiken?

Het primaire doel van het maken en gebruiken van een database is het opslaan van informatie. Maar als het gaat om het analyseren van data, komt een datawarehouse goed van pas. Grote analytische query's kunnen het beste worden afgehandeld door het datawarehouse, terwijl een database doorgaans is ontworpen voor lees- en schrijfbewerkingen per transactie.

Is Mysql een database of datawarehouse?

MySQL is geen lichtgewicht DBMS; het is een compleet databasebeheersysteem. Vanwege het relationele formaat is MySQL misschien wel de eenvoudigste database om mee te werken en te leren. Sommige van de andere keuzes hierboven kunnen echter geschikter zijn voor wijdverbreide implementatie.

Is Snowflake een datawarehouse?

Ja. De architectuur van Snowflake scheidt de centrale gegevensopslaglaag van de gegevensverwerkingslaag, net als die van BigQuery. Als resultaat van zijn superioriteit ten opzichte van zijn concurrenten op het gebied van prestaties, schaalbaarheid en query-optimalisatie, is Snowflake momenteel het populairste datawarehouse op de markt. Het addertje onder het gras is dat Snowflake doorgaans duurder is, dus daar moet je rekening mee houden.