FONDAMENTI DI ANALISI DATI E LABORATORIO

Anno accademico 2020/2021 - 1° anno - Curriculum Data Science
Docenti Crediti: 9
Organizzazione didattica: 225 ore d'impegno totale, 153 di studio individuale, 36 di lezione frontale, 24 di esercitazione, 12 di laboratorio
Semestre:

Obiettivi formativi

  • FONDAMENTI DI ANALISI DATI

    Obiettivi del corso sono:

    1. Fornire le conoscenze di base circa le prassi e gli algoritmi piùù comuni e stao dell'arte utlizzati nell'analisi dei dati mediante la presentazione del framwork teorico-matematico ed esempi con reti di implementazione ed utilizzo.
    2. Avviare gli studenti alla costruzione, gestione, preprocessing di un data set reale allo scopo di estrarne, mediante le tecniche più opportune , classificatori automatici e siistemi di supporto alle decisioni.
    3. Fornire conoscenze adeguate per la valutazione dei pro e contro dei differenti paradigmi di analisi dati in modo da potere proporre di caso in caso l'approccio più adeguato per la soluzione dei problemi di estrazione della conoscenza che si presentano.
    4. Addestrare alla redazione di report completi, rigorosi, visualmente intutivi che comunichino in modo corretto ed efficace all'utente finale gli esiti della analisi ed esplorazione di un data set sperimentale, giustificandone con chiarezza le conclusioni.
    5. Capacità di aggiornarsi all'utilizzo di sistemi software, di linguaggi e algoritmi innovativi nel settore della analisi dei dati.
  • LABORATORIO

    Obiettivi del laboratorio annesso al corso teorico è fornire una esperienza diretta "hand on" di analisi dati sia pur in contesto didattico.
    Il linguaggio di riferimento è Python e l'utilizzo delle principali librerie statistiche, di analisi dati e di visualizzazione dati.
    Lo studente verrà guidato passo passo al caricamento dei dati, al loro riordino e pre-processing, alla esplortazione visuale e alla applicazione degli algoritmi che vengono via via presentati a lezione.


Modalità di svolgimento dell'insegnamento

  • FONDAMENTI DI ANALISI DATI

    lezioni frontali in aula

    Qualora l'insegnamento venisse impartito in modalità mista o a distanza potranno essere introdotte le necessarie variazioni rispetto a quanto dichiarato in precedenza, al fine di rispettare il programma previsto e riportato nel syllabus.

  • LABORATORIO

    Lezioni in aula, il docente presenta agli studenti script python illustrandone il significato e chidendo di replicarli ed applicarli ai vari data set.

    Qualora l'insegnamento venisse impartito in modalità mista o a distanza potranno essere introdotte le necessarie variazioni rispetto a quanto dichiarato in precedenza, al fine di rispettare il programma previsto e riportato nel syllabus


Prerequisiti richiesti

  • FONDAMENTI DI ANALISI DATI

    Programmazione.
    Nozioni di base di statistica e calcolo delle probabilità.
    Nozioni di basi di dati.

    Algebra lineare.
    nozioni di calcolo numerico.

  • LABORATORIO

    Programmazione
    Nozioni di base di statistica e calcolo delle probabilità.
    Nozioni di basi di dati.

    Algebra lineare.
    nozioni di calcolo numerico.


Frequenza lezioni

  • FONDAMENTI DI ANALISI DATI

    Obbligatoria

  • LABORATORIO

    Obbligatoria


Contenuti del corso

  • FONDAMENTI DI ANALISI DATI
    • Statistica descrittiva e tecniche di visualizzazione.
    • Correlazione e regressione lineare. Regressione non lineare. regressione logistica.
    • Classificatori bayesiani: MAP.
    • Apprendimento di un classificatore: tipi di errore. matrice di confuzione. Curve ROC.
    • Dscriminati lienari: percettrone, discriminate lineare di Fisher, SVM.
    • Kernel trick e SVM non lineari.
    • PCA e altre tecniche non lineari di riduzione della dimenionalità.
    • K-nn
    • Alberi decisionali. CART.
    • Clustering: k-means e clustering gerarchico.
  • LABORATORIO

    Statistica descrittiva e tecniche di visualizzazione.

    Correlazione e regressione lineare. Regressione non lineare. regressione logistica.

    Classificatori bayesiani: MAP.

    Apprendimento di un classificatore: tipi di errore. matrice di confuzione. Curve ROC.

    Dscriminati lienari: percettrone, discriminate lineare di Fisher, SVM.

    Kernel trick e SVM non lineari.

    PCA e altre tecniche non lineari di riduzione della dimenionalità.

    K-nn

    Alberi decisionali. CART.

    Clustering: k-means e clustering gerarchico.

    metodi di ensamble. Boosting.


Testi di riferimento

  • FONDAMENTI DI ANALISI DATI

    a) Chapters from: Pattern Recognition and Machine Learning (Information Science and Statistics) Bishop C.M: Editore: Springer, 2007

    b) Chapters from:Python for Data Analysis: Data Wrangling with Pandas, Numpy, and IPython (Inglese) W.Mckinney O'reilly 2017

  • LABORATORIO

    Notebook Jupyter forniti dal docente

    Chapters from:Python for Data Analysis: Data Wrangling with Pandas, Numpy, and IPython (Inglese) W.Mckinney O'reilly 2017


Programmazione del corso

FONDAMENTI DI ANALISI DATI
 ArgomentiRiferimenti testi
1Introduzione ai dati, raccolta, tipologia, problematiche generaliDispensa/slides del docente 
2Richiami elementari alla probabilità, sigma Algebre e approccio di KolmogorovDispensa/slides del docente 
3Statistica descrittiva classica e esploraizone visuale dei daticapitoli dal testo b) 
4Dati multivariati: correlazione e indipendenza, misure di correlazionecapitoli dal testo a) 
5Regressione lineareDispensa/slides del docente 
6Regressione non lineareDispensa/slides del docente 
7Regressione logisticaDispensa/slides del docente 
8Formula di Bayes e applicazioni al trattamento dei daticapitoli dal testo a) 
9Classificatore MAP, algoruitmo Bayes naivecapitoli dal testo a) 
10Analisi degli errori di classificaizone: errore di training e di generalizzazionecapitoli dal testo a) 
11Matrice di confusione, curve ROC, rischio di un classificatorecapitoli dal testo a) 
12Linear discriminant Analysys e Fisher discriminant analysiscapitoli dal testo a) 
13Support Vector machine e kernel trickDispensa/slides del docente 
14Metodi non parametrici per la classificazionecapitoli dal testo a) 
15Alberti decisionali, CART e misure di omogeneitàcapitoli dal testo b) 
16Algoritmo k-nn, motivazioni teoriche e ottimizzazionecapitoli dal testo a) 
17Cluster analysis, analisi di mixture gaussianecapitoli dal testo b) 
18K-means e cenn al fuzzy k-meanscapitoli dal testo b) 
19Clustering gerarchicocapitoli dal testo a) 
LABORATORIO
 ArgomentiRiferimenti testi
1Statistica descrittivanotebook jupyter fornito dal docente, capitoli testo b) 
2Modalità più comuni di visualizzaizone datinotebook jupyter fornito dal docente, capitoli testo b) 
3correlazione e indici di correlazione linearenotebook jupyter fornito dal docente, capitoli testo b) 
4confronto tra popolazioni, cenni di statistica inferenzialenotebook jupyter fornito dal docente, capitoli testo b) 
5il problema della classificazione automatica, Ts, CS e errorenotebook jupyter fornito dal docente, capitoli testo b) 
6Regressione linearenotebook jupyter fornito dal docente, capitoli testo b) 
7regressione non lineare e logisticanotebook jupyter fornito dal docente, capitoli testo b) 
8Formula di Bayes, classificazione MAPnotebook jupyter fornito dal docente, capitoli testo b) 
9Analisi discriminante: LDA, percettronenotebook jupyter fornito dal docente, capitoli testo b) 
10SVM, SVM e kernel tricknotebook jupyter fornito dal docente, capitoli testo b) 
11Alberi decisionali: CARTnotebook jupyter fornito dal docente, capitoli testo b) 
12Riduzione di dimensionalità lineare: PCAnotebook jupyter fornito dal docente, capitoli testo b) 
13K-nn e parzen methods (metodi non parametrici)notebook jupyter fornito dal docente, capitoli testo b) 
14Clustering: k-means, medoids, clustering gerarchiconotebook jupyter fornito dal docente, capitoli testo b) 

Verifica dell'apprendimento

Modalità di verifica dell'apprendimento

  • FONDAMENTI DI ANALISI DATI

    L'esame si articola in tre prove distinte:

    a) lo studente propone al docente lo studio di un dat set a sua scelta e concorda con il docente il tipo di analisi e irisultati cui tale analisi è orientata; raccomandata almeno una revisione intemredia dle progetto con il docente.(vedi laboratorio)

    b) colloquio orale di verifica delle conoscenze di base relative al corso.

    "La verifica dell’apprendimento potrà essere effettuata anche per via telematica, qualora le condizioni lo dovessero richiedere."

  • LABORATORIO

    L'esame consiiste nella presentazione e discussione di un progetto di analisi dati scelto dallo studente e pre-approvato dal docente.
    La verifica dell’apprendimento potrà essere effettuata anche per via telematica, qualora le condizioni lo dovessero richiedere.


Esempi di domande e/o esercizi frequenti

  • FONDAMENTI DI ANALISI DATI

    Il progetto di anlai parte da data set di dimensioni medio-grandi ottenibili in rete (molto popolare la scelta di data set da Kaggle)

    Domande d'esame:
    a) regola di Bayes e applicaizoni alla classificazione

    b) strategie di ottimizzazione per il knn

    c) misure di omogeneità

    d) misure di correlazione

  • LABORATORIO

    Tipici data set vengono estratti da Kaggkle e si richiede di eseguire task di regressione e di classificazione utilizzando differenti algoritmi e strategier, valutandone l'efficacia.