Programma
Dag 1 - voormiddag: Je actieplan opstellen en data verzamelen
Kaderen van de rol van de data analist en stilstaan bij de hard en soft skills die van hem of haar verwacht worden. Op die manier wordt de structuur duidelijk waarop de rest van de opleiding gebaseerd is. Daarna volgt een introductie van de case die tijdens de opleiding als rode draad wordt gebruikt om de onderwerpen praktisch in te vullen. Laatste deel: antwoorden op vragen als: Waar kan je gegevens vinden? Hoe kan je er toegang toe krijgen? Ben je vrij om ze commercieel te gebruiken? Dit is concreet de 1e fase van elk data-analyseproject en wordt als dusdanig onmiddellijk toegepast op de dataset die je doorheen deze opleiding gebruikt.
- De 'hard' en 'soft' skills van een data analist
- The Pyramid Principle
- Case in Point
- Introductiecase
- Eerste inzicht in de dataset
- Toegang verschaffen tot de dataset
- Data verzamelen
- Interne databronnen
- Web scraping
- Toepassing op de case
Trainer: Ann Van Eyken
Dag 1 - namiddag: Databases
Vooraleer je te verdiepen in de data zelf, is het noodzakelijk om een sterke theoretische basis te hebben. Enkel zo kan je je kansen op succes, en daarbij de kwaliteit van de resultaten, maximaliseren. Een essentieel theoretisch element is het belang van en de mogelijke soorten databases.
- Belang van databases
- Databasebeheersystemen of DBMS
Trainer: Ann Van Eyken
Dag 2: BigData & (No)SQL: overzicht
In dit gedeelte maak je kennis met de complexiteit van de big data-wereld en de manier waarop we ermee omgaan. Je bestudeert het ontwerp van de relationele database die nodig is voor de case en bekijkt enkele alternatieve NoSQL-indelingen om een deel van de informatie op te slaan. Tot slot vergelijk je de verschillende alternatieven.
- Big Data
- Wat en waarom?
- Distributiemodellen
- Denormalisatie
- NoSQL databanken
- Key-Value
- Document
- Column-Family
- Graph
Trainer: Ann Van Eyken
Dag 3: Preprocessing data
In dit gedeelte leer je hoe je van een vervuilde en onvolledige dataset een schone dataset maakt die klaar is voor analyse. Je leert over opschonen, integreren, transformeren, reduceren en discretiseren van onbewerkte gegevens, zowel in theorie als in de praktijk.
Gedurende deze dag gebruik je voornamelijk de tool OpenRefine om de ruwe data van de case voor te bereiden.
- Data in de 'echte' wereld
- De 5 taken in preprocessing
- Opschonen
- Integreren
- Transformeren
- Reduceren
- Discretiseren
- Reproduceerbaarheid
- Ruwe data
- Schone data
- Codeboek
- Expliciet en exact
- Preprocessing in OpenRefine
Trainer: Ann Van Eyken
Dag 4: Business Intelligence
In dit gedeelte leer je waarom BI waardevol is, wie je nodig hebt in je team en waar je moet beginnen. Je praat over data warehousing en dimensioneel modelleren en waarom het zo belangrijk is.
Ten slotte ontwerp je een dimensionaal model voor de case en extraheer, laad en transformeer je de gegevens die je tot nu toe hebt gevonden en verwerk je deze in een datawarehouse.
- Introductie tot Business Intelligence
- BI-architectuur
- Wie betrek je bij een BI-project?
- Waar begin je?
- Wat zijn valkuilen?
- Data Warehousing
- Dimensioneel modelleren
- ETL
Trainer: Ann Van Eyken
Dag 5: Kennismaking met R
R verwijst naar een open-sourceprogrammeertaal en softwareomgeving en is zeer relevant in de context van datamining en statistiek.
Je geraakt op weg met R, de basisbeginselen en ziet een aantal geavanceerde functies. Je gebruikt R om enkele modellen voor de dataset in de case te bouwen en probeert ook een aantal voorspellingen te doen.
- Wat is R?
- Vectoren
- Matrixen
- Factoren
- Lijsten
- Dataframes
- Conditionals en flow controle
- Loops
- Functies
- Toepassen
- Hulpmiddelen
- Visualisatie
Trainer: Ann Van Eyken
Dag 6: Statistiek
Een gefundeerde beslissing maken over welke tests kunnen leiden tot nuttige en relevante resultaten, is heel belangrijk. Daarbij mag statistiek niet ontbreken. Door een dag de tijd te nemen om de onderdelen te bespreken die bepalen hoe statistische principes leiden tot specifieke soorten tests, kan je als data analist op een gefundeerde manier keuzes maken als je naar de effectieve implementatie van je analyse overgaat.
- Overzicht van statistische testen
- Descriptieve statistiek en kanstheorie
- Kansverdelingen
- Significantietesten
- Hypothesetesten
- Regressie
- Bayensiaanse statistiek
- Conditionele kanstheorie
- Prior en posteriore verdeling
Trainer: Marie Bauwens
Dag 7 - voormiddag: EDA in R
EDA of Exploratory Data Analysis is de fase waarin je voor het eerst de data onder de loep neemt vanuit een descriptief standpunt. De essentie van deze stap is om de eigenschappen van de dataset te begrijpen en zo de verdere analyse een meer geschikte vorm te geven. In dit onderdeel combineer je R, dat op dag 5 aan bod komt, met de theoretische benadering in de voormiddag en pas je het toe op de case.
- Omschrijving van de opdracht
- Descriptieve statistiek in R
- Descriptieve visualisaties in R
Dag 7 - namiddag: Data Mining
Datamining is het proces waarbij patronen in datasets worden herkend. In dit gedeelte onderzoek je verschillende soorten patronen en pas je ze toe op de businessvragen. Bijvoorbeeld: het vinden van verschillende klantengroepen, het voorspellen van churn of het ontdekken van een bepaalde frequentie van sets. Je gebruikt een tool om enkele relevante algoritmes toe te passen.
- Introductie
- Definitie
- Proces
- Overzicht van de technieken
- Classificatie
- OneRule (1R)
- Beslissingsbomen
Trainer: Ann Van Eyken
Dag 8: Data Mining (vervolg)
- Regressie
- Lineaire regressie
- Logistieke regressie
- Artificiële neurale netwerken
- Frequente itemset mining
- Clustering
- K-means clustering
- Hiërarchische clustering
Trainer: Ann Van Eyken
Dag 9: Kennismaking met Python
Python is een open-sourceprogrammeertaal waarbij simpliciteit en leesbaarheid van de code centraal staan. Daarnaast bestaat er een heel gamma aan packages die specifiek zijn toegespitst op data analyse. Om die reden is Python onmisbaar in de toolkit van elke data analist.
Gedurende de dag maak je kennis met de basisbeginselen van programmeren in Python, maar ook met de meest gebruikte packages voor data analyse.
- Introductie
- Variabelen en functies
- Loops en arrays
- Flow control
- Jupyter Notebooks
- Statistiek met Numpy
- Hypothesetesten met Scipy
- Dataframes met Pandas
- Machine Learning met Scikit-learn
Trainer: Ann Van Eyken
Dag 10 - voormiddag: Datavisualisatie
Als je het punt bereikt waar je de gevormde inzichten kan communiceren naar de klant, moet je beslissen welke visualisaties hiervoor het meest geschikt zijn. Niet elke grafieksoort of infographic draagt dezelfde boodschap. Het kan daarom schadelijk zijn om in de laatste fases toch nog de verkeerde keuzes te maken, ondanks alle moeite die ervoor in het project werd gestopt. De essentie van elk project blijft namelijk dat je de klant moeten kunnen overtuigen om de inzichten om te zetten naar actie. In het eerste onderdeel van deze voormiddag krijg je vanuit de theorie een overzicht van de belangrijkste visualisaties en hun eigenschappen.
Dat wordt opnieuw praktisch ingevuld door de case om te zetten naar een Power BI-dashboard. In het tweede onderdeel van de voormiddag bespreek je de werking van Power BI en hoe het kan worden gebruikt om inzichten weer te geven op een overzichtelijke manier.
- Visualisaties
- Methodes
- Visuele designs
- The Good
- The Bad
- The Ugly
- Power BI
Trainer: Olivier Drybooms
Dag 10 - namiddag: Visualisaties in Python
In de namiddag gaat het verder over visualisaties, maar dan in Python. Ook hier onderzoek je de manieren waarmee je data en bevindingen kan voorstellen met allerhande grafieken. Je leert hoe je de meest gebruikte grafieken kan tekenen in Python en hoe je ze in een mooi overzicht toont aan de klant via Jupyter Notebooks in samenwerking met de visualisatiepackage matplotlib.
- Installeren van matplotlib
- Eigen Jupyter Notebooks maken
- Visualisaties met matplotlib en Jupyter
Trainer: Ann Van Eyken