Voor een training heb ik onderscheid gemaakt tussen verschillende dimensies van (big) data analyse.
Gekeken wordt ook in welke mate het afwijkt van klassieke data analyse.
1.strategie; welke strategische doelen worden ondersteund
2.welke stappen moeten worden genomen bij data analyse
3.welke type kennis wordt opgedaan
4.wat voor data wordt verwerkt
5.welke technieken worden gebruikt
6.welke tools worden gebruikt
7.architectuur
8.benodigde kennis
1. (Big) Data Analyse Strategie
De opkomst van big data zorgt dat analytics ingezet
kan worden voor meer strategische doelen.
Bij klassieke DA: vooral interne
beslissingen ondersteunen. Nu ook kostenreductie,
tijdsbesparing en nieuwe producten en diensten.
Bv kostenbesparing:banken die hadoop gebruiken omdat dit
goedkoper is dan db-opslag.
Tijdsbesparing: bedrijf dat BDA gebruikt om prijswijzigingen
van alle producten binnen een uur te realiseren!
Zie ook het DELTA model van Davenport
Data, Enterprise, Leadership,
Targers, Analysts
Maturitiet van organisatie ; welke zijn relatief belangrijk
bij BDA: Data en Analysts!
Andere relatief wat minder belangrijk omdat BDA data en
tools (open source) weinig kosten, hoeven er niet direct veel investeringen
tegenover te staan.2.Processtappen (Big) Data Analyse
Over processtappen bij klassieke DA is natuurlijk zeer veel over geschreven. Crisp-DM, Semma. Gaan BDA projecten op zelfde wijze? Vooralsnog vaak niet. Vaak pilots met hackathons.
Belangrijk: software kost vaak niets (open source).
Data(opslag) kost weinig. Kosten zitten hem in de mensen!
Klassieke DA – vooral hyphothesechecking/steekproeven;
~klassiek wetenschappelijk onderzoek
BDA – alles wordt onderzocht; Betekent dit het einde van de causaliteit, zoals bv Mayer/Chukier betogen in hun boek de Big Data Revolututie. Lijkt mij overdreven, al kan zonder inzicht in causale verbanden toch interessante
correlaties gevonden worden. (bv google voorspelt griep, supermarkt herkent of
vrouw zwanger wordt.)
3. Type kennis bij (Big) Data Analyse
Wat voor type kennis wordt gezocht.
Dit is bij BDA in principe het zelfde als bij DA (kennis blijft kennis)
Zie bv CRISP-DM
4.Type data bij (Big) Data Analyse
klassieke DA ging vooral over gestructureerde data in databases. (bovenste drie boven)
Nu komen er bij BDA zeer veel types bij! Hier een poging dit te classificeren.
Hier komen we op een niveau dat we voorbeelden kunnen laten zien, hier in R, van bv textmining, streaming etc.
5. Technieken van (Big) Data Analyse
Hier een classificatie van de verschillende
supervised en unsupervised methoden.
Bij bv textmining kan het bv uiteindelijk aankomen op clustering van bepaalde texten.
Palet van technieken voor DA blijft (volgens mij) het zelfde
bij BDA
belangrijk is een soort layers te onderscheiden. R, Python bevinden zich hierboven op het bovenste
niveau.
7.(Big) Data Anayse Architectuur
Bestaande grote bedrijven zullen hun
BDA-architectuur (Hadoop etc) dienen te plaatsen in hun bestaande
(DWH)-architectuur. Nieuwe(startups) zullen wellicht direct Hadoop als hun
centrale architectuur gaan gebruiken.
DWH centraal of ‘Hadoop-cluster’centraal?
8.(Big) Data Analyse Benodigde kennis
Welke kennis heeft een (Big)Data Analist nodig.
Belangrijkste : Leergierig. en "beginnersmind"
Geen opmerkingen:
Een reactie posten