FONDAMENTI DI ANALISI DATI E LABORATORIOModulo LABORATORIO
Anno accademico 2024/2025 - Docente: ANTONINO FURNARIRisultati di apprendimento attesi
Conoscenza e capacità di comprensione: Lo studente acquisirà una solida comprensione dei principi fondamentali necessari per raccogliere, organizzare, modellare, analizzare e interpretare i dati. Questo avverrà mediante la presentazione di un framework teorico-matematico e numerosi esempi di applicazione a insiemi di dati reali. Lo studente svilupperà una comprensione approfondita delle basi concettuali dell'analisi dei dati. Capacità di applicare conoscenza e comprensione: Lo studente acquisirà competenze tecniche per la costruzione, gestione e analisi di set di dati reali, con l’obiettivo di costruire modelli e sistemi di supporto alle decisioni. Sarà in grado di applicare le conoscenze acquisite per risolvere problemi concreti utilizzando strumenti e tecniche di analisi dei dati. Autonomia di giudizio: Lo studente sarà in grado di scegliere autonomamente le tecniche più adeguate alla risoluzione di un problema di analisi dei dati, valutandone i pro e i contro. Sarà capace di giustificare le proprie scelte e valutare criticamente diverse metodologie di analisi ed estrazione della conoscenza. Abilità comunicative: Lo studente sarà in grado di redigere report completi e visivamente adeguati in grado di comunicare in modo corretto ed efficace i risultati dell’analisi e dell’esplorazione dei dati. Capacità di apprendimento: Lo studente svilupperà le competenze necessarie per aggiornarsi autonomamente sull’uso di tecniche, software e linguaggi di programmazione utili per l’analisi dei dati, garantendo un apprendimento continuo anche al termine del corso.
Modalità di svolgimento dell'insegnamento
Lezioni frontali in aula.
Qualora l'insegnamento venisse impartito in modalità mista o a distanza, potranno essere introdotte le necessarie variazioni rispetto a quanto dichiarato in precedenza, al fine di rispettare il programma previsto e riportato nel syllabus.
Prerequisiti richiesti
Sono richieste competenze di base di programmazione, analisi matematica e algebra lineare.
Frequenza lezioni
La frequenza non è obbligatoria, ma fortemente consigliata.
Contenuti del corso
- Introduzione all’analisi dei dati
Analisi dei dati descrittiva ed esplorativa Analisi dei dati inferenziale Dati come punti N-dimensionali Analisi dei dati predittiva
Introduzione all'analisi dei dati
Panoramica sull'analisi dei dati, scopo e applicazioni Principali tipi di analisi dei dati: descrittiva, esplorativa, inferenziale, predittiva Esempi di analisi dei dati e applicazioni (esempi notevoli di analisi dei dati e come queste sono state utili per risolvere problemi reali) Diversi tipi di dati: dati nominali, ordinali, intervallo e rapporto Tecniche di raccolta dati: sondaggi, esperimenti, studi osservazionali, campionamento Differenza tra campione e popolazione Tecniche di pre-processing dei dati: pulizia dei dati, gestione dei dati mancanti, standardizzazione dei dati, codifica delle variabili categoriche (variabili dummy), riduzione del rumore nei dati (filtraggio, rimozione di valori anomali, normalizzazione) Utilizzo della probabilità per l’analisi dei dati: concetti di base della probabilità (probabilità congiunta, marginale, condizionale, indipendenza e indipendenza condizionale), teorema di Bayes e suo utilizzo nell’analisi dei dati, distribuzioni di probabilità discrete, continue, cumulativi. Distribuzioni di probabilità notevoli.
Misure della tendenza centrale, media, mediana e moda Misure di dispersione, varianza, deviazione standard, quartili e intervallo interquartile Covarianza, correlazione Tecniche di visualizzazione dei dati: diagrammi a torta, istogrammi, boxplot, scatterplot, hexbin, mappe di densità, curve di livello, scattermatrix, plot di regressione Analisi dei dati inferenziale Obiettivi dell'analisi dei dati inferenziale Uso degli intervalli di confidenza nell'analisi dei dati, livelli di significatività e come interpretarli Uso dei test di ipotesi per l'analisi dei dati, ipotesi nulla e alternativa, p-value e significatività statistica. Principali test statistici: confronto di medie, t-test, chi-quadrato Valutare la significatività dei coefficienti di correlazione con test di ipotesi Uso della regressione lineare e logistica per studiare la relazione tra variabili Significatività statistica della regressione lineare e logistica Tecniche di selezione dei modelli di regressione, backward elimination Cenni di analisi dei dati causale: correlazione vs causalità, randomized controlled experiments, studi osservazionali, conterfactuals e confounders, regressione lineare con controllo di confounders
Feature, funzioni di rappresentazione, spazi delle feature, metriche Tecniche di clustering: definizioni e K-Means Fit di Gaussiane ai dati, Maximum Likelihood Tecniche di stima della densità: finestra di Parzen, kernel density estimation, modelli di misture di gaussiane (GMM) Tecniche di riduzione della dimensionalità: analisi delle componenti principali (PCA)
Concetti fondamentali dell’analisi predittiva: training, validation e test set, cross validation. Algoritmi generativi e discriminativi. Parametri e iper-parametri. Metodi parametrici e non parametrici. Overfitting e underfitting, bias e varianza. Modelli lineari e nonlineari. Tecniche di regressione. Misure di valutazione per problemi di regressione: errore quadratico medio e errore assoluto medio. Tecniche di classificazione. Valutazione delle prestazioni di un modello di classificazione: confusion matrix, precision, recall e F1 score. Curve ROC per la valutazione delle prestazioni della classificazione binaria. Funzioni discriminanti. Fisher Discriminant Analysis (FDA), Linear Discriminant Analysis (LDA), Quadratic Discriminant Analysis (QDA), Distanza di Mahalanobis, K-Nearest Neighbor (KNN) come metodo di classificazione non parametrico. MAP e Naive Bayes.
Testi di riferimento
Peck, Roxy, Chris Olsen, and Jay L. Devore. Introduction to statistics and data analysis. Cengage Learning, 2015. James, Gareth Gareth Michael. An introduction to statistical learning: with applications in Python, 2023.https://www.statlearning.com Bishop, Christopher M. "Machine Learning. Machine learning, 2006. https://www.microsoft.com/en-us/research/publication/pattern-recognition-machine-learning/ Hernán, Miguel A., and James M. Robins. Causal inference, 2010. https://www.hsph.harvard.edu/miguel-hernan/causal-inference-book/
Programmazione del corso
Argomenti | Riferimenti testi | |
---|---|---|
1 | Introduzione al corso | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
2 | Principali concetti di analisi dei dati | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
3 | Statistica descrittiva e rappresentazione grafica dei deti | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
4 | Incertezza e dati come osservazioni di eventi casuali | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
5 | Distribuzione di probabilità | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
6 | Introduzione alla inferenza statistica: generalizzare alla popolazione | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
7 | Associazione di due variabili | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
8 | Introduzione alla inferenza causale | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
9 | Semplici tecniche di inferenza causale per analizzare dati osservazionali | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
10 | Clustering e density estimation | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
11 | Riduzione della dimensionlaità | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
12 | Analisi dei dati predittiva | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
13 | Modelli probabilistici per la classificazione | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
14 | Funzioni discriminati per la classificazione | Materiale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati. |
Verifica dell'apprendimento
Modalità di verifica dell'apprendimento
Uno scritto, volto a verificare le competenze dello studente in merito agli argomenti trattati nel modulo di “Fondamenti di Analisi dei Dati”, da un punto di vista teorico e metodologico. La prova è valutata con un voto in trentesimi. Un progetto, concordato con il docente e svolto in autonomia dallo studente, volto a verificare le competenze acquisite nel modulo di “Laboratorio”. Il progetto viene presentato al docente mediante un colloquio e valutato con un voto in trentesimi.
Voto 26-28
Lo studente ha una discreta conoscenza dei concetti e delle tecniche di analisi dei dati, anche se si limita agli argomenti principali. Riesce ad analizzare i problemi di analisi dei dati, seppure non sempre in maniera lineare, individuando tecniche di analisi dei dati idonee alla risoluzione del problema considerato. Ha discrete capacità comunicative e una discreta proprietà di linguaggio.
Voto 18-21
Lo studente ha la minima conoscenza dei concetti e delle tecniche di analisi dei dati. Ha una modesta capacità di analizzare i problemi di analisi dei dati. Ha sufficienti capacità comunicative, seppure non sempre una appropriata proprietà di linguaggio.
Esame non superato
Lo studente non possiede la conoscenza minima richiesta dei contenuti principali dell’insegnamento. La capacità di utilizzare il linguaggio specifico è scarsissima o nulla e non è in grado di applicare autonomamente le conoscenze acquisite.
Esempi di domande e/o esercizi frequenti
Il progetto di analisi dei dati è generalmente basato su dataset di dimensioni medio-grandi ottenibili in rete.
Esempi di domande d'esame tipo per lo scritto:
- Si definisca il problema della classificazione, si discutano le differenze rispetto al problema della regressione e si riportino degli esempi pratici.
- Si illustri l’algoritmo K-NN per la classificazione. Si discuta l’effetto del parametro K sulle performance dell’algoritmo. Si facciano degli esempi grafici del funzionamento dell’algoritmo e dell’effetto di K.
- Si discutano le misure di valutazione per i problemi di classificazione: accuracy, matrice di confusione, precision, recall e score F1. Si discutano i pro e i contro delle misure considerate, anche in relazione alle caratteristiche del dataset di test.
- Si illustrino le principali tecniche utili per studiare la correlazione tra variabili.