Seguici su
Cerca

FONDAMENTI DI ANALISI DATI E LABORATORIO
Modulo LABORATORIO

Anno accademico 2025/2026 - Docente: ANTONINO FURNARI

Risultati di apprendimento attesi

-->
  1. Conoscenza e capacità di comprensione: Lo studente acquisirà una solida comprensione dei principi fondamentali necessari per raccogliere, organizzare, modellare, analizzare e interpretare i dati. Questo avverrà mediante la presentazione di un framework teorico-matematico e numerosi esempi di applicazione a insiemi di dati reali. Lo studente svilupperà una comprensione approfondita delle basi concettuali dell'analisi dei dati.

  2. Capacità di applicare conoscenza e comprensione: Lo studente acquisirà competenze tecniche per la costruzione, gestione e analisi di set di dati reali, con l’obiettivo di costruire modelli e sistemi di supporto alle decisioni. Sarà in grado di applicare le conoscenze acquisite per risolvere problemi concreti utilizzando strumenti e tecniche di analisi dei dati.

  3. Autonomia di giudizio: Lo studente sarà in grado di scegliere autonomamente le tecniche più adeguate alla risoluzione di un problema di analisi dei dati, valutandone i pro e i contro. Sarà capace di giustificare le proprie scelte e valutare criticamente diverse metodologie di analisi ed estrazione della conoscenza.

  4. Abilità comunicative: Lo studente sarà in grado di redigere report completi e visivamente adeguati in grado di comunicare in modo corretto ed efficace i risultati dell’analisi e dell’esplorazione dei dati.

  5. Capacità di apprendimento: Lo studente svilupperà le competenze necessarie per aggiornarsi autonomamente sull’uso di tecniche, software e linguaggi di programmazione utili per l’analisi dei dati, garantendo un apprendimento continuo anche al termine del corso.

Modalità di svolgimento dell'insegnamento

Lezioni frontali in aula che integrano la trattazione teorica con sessioni pratiche di laboratorio. Durante queste sessioni, verranno mostrate e applicate le tecniche studiate attraverso esempi di codice e analisi guidate su dataset reali.

Qualora l'insegnamento venisse impartito in modalità mista o a distanza, potranno essere introdotte le necessarie variazioni rispetto a quanto dichiarato in precedenza, al fine di rispettare il programma previsto e riportato nel syllabus.

Prerequisiti richiesti

Sono richieste competenze di base di programmazione, analisi matematica e algebra lineare.


Frequenza lezioni

La frequenza non è obbligatoria, ma fortemente consigliata.

Contenuti del corso

-->

-->

Il corso è articolato in tre moduli principali:

  • Analisi dei dati
  • Tecniche predittive
  • Rappresentazione dei dati

I paragrafi che seguono dettagliano i contenuti dei vari moduli.

Analisi dei dati

  • Panoramica sull'analisi dei dati: principali tipi, scopi e applicazioni, esempi di analisi dei dati
  • Diversi tipi di dati: dati nominali, ordinali, intervallo e rapporto
  • Tecniche di raccolta dati: sondaggi, esperimenti, studi osservazionali, campionamento
  • Differenza tra campione e popolazione
  • Tecniche di pre-processing dei dati: pulizia dei dati, gestione dei dati mancanti, standardizzazione dei dati, codifica delle variabili categoriche (variabili dummy), riduzione del rumore nei dati (filtraggio, rimozione di valori anomali, normalizzazione)
  • Utilizzo della probabilità per l’analisi dei dati: concetti di base della probabilità (probabilità congiunta, marginale, condizionale, indipendenza e indipendenza condizionale), teorema di Bayes e suo utilizzo nell’analisi dei dati, distribuzioni di probabilità discrete, continue, cumulativi. Distribuzioni di probabilità notevoli.
  • Misure della tendenza centrale (media, mediana e moda), misure di dispersione (varianza, deviazione standard, quartili e intervallo interquartile)
  • Covarianza, misure di correlazione tra variabili
  • Tecniche di visualizzazione dei dati: diagrammi a torta, istogrammi, boxplot, scatterplot, hexbin, mappe di densità, curve di livello, scattermatrix, plot di regressione
  • Uso degli strumenti di analisi inferenziale dei dati: intervalli di confidenza, livelli di significatività e test statistici

Tecniche Predittive

  • Concetti fondamentali dell’analisi predittiva: training, validation e test set, cross validation. Algoritmi generativi e discriminativi. Parametri e iper-parametri. Metodi parametrici e non parametrici. Overfitting e underfitting, bias e varianza. Modelli lineari e nonlineari.
  • Tecniche di regressione. Misure di valutazione per problemi di regressione: errore quadratico medio e errore assoluto medio. Regressione lineare. Valutazione dei modelli di regressione e significatività statistica dei coefficienti di un regressore lineare. Tecniche di selezione dei modelli di regressione, backward elimination
  • Tecniche di classificazione. Valutazione delle prestazioni di un modello di classificazione: confusion matrix, precision, recall e F1 score. Curve ROC per la valutazione delle prestazioni della classificazione binaria. K-Nearest Neighbor (KNN), regressione logistica, multinomiale e softmax. MAP e Naive Bayes. 

Rappresentazione dei Dati 

  • Feature, funzioni di rappresentazione, spazi delle feature, metriche
  • Tecniche di clustering: definizioni e K-Means
  • Fit di Gaussiane ai dati, Maximum Likelihood
  • Stima della densità non parametrica mediante kernel density estimation
  • Analisi delle componenti principali (PCA)

Testi di riferimento

-->

Capitoli dei seguenti libri:

  • Peck, Roxy, Chris Olsen, and Jay L. Devore. Introduction to statistics and data analysis. Cengage Learning, 2015.
  • James, Gareth Gareth Michael. An introduction to statistical learning: with applications in Python, 2023.https://www.statlearning.com
  • Bishop, Christopher M. "Machine Learning. Machine learning, 2006. https://www.microsoft.com/en-us/research/publication/pattern-recognition-machine-learning/
  • Hernán, Miguel A., and James M. Robins. Causal inference, 2010. https://www.hsph.harvard.edu/miguel-hernan/causal-inference-book/
  • Knaflic, Cole Nussbaumer. Storytelling with data: A data visualization guide for business professionals. John Wiley & Sons, 2025.

Materiale didattico condiviso dal docente mediante Microsoft Teams (codice del Team: i87g4nb) e tramite il sito http://antoninofurnari.github.io/fadlecturenotes/.

Programmazione del corso

 ArgomentiRiferimenti testi
1Introduzione al corsoMateriale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati.
2Principali concetti di analisi dei datiMateriale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati.
3Statistica descrittiva e rappresentazione grafica dei detiMateriale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati.
4Incertezza e dati come osservazioni di eventi casualiMateriale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati.
5Distribuzione di probabilitàMateriale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati.
6Uso della inferenza statistica nell'analisi dei datiMateriale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati.
7Associazione di due variabiliMateriale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati.
8Clustering e density estimationMateriale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati.
9Riduzione della dimensionalità e analisi delle componenti principaliMateriale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati.
10Analisi dei dati predittivaMateriale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati.
11Modelli probabilistici per la classificazioneMateriale didattico messo a disposizione dal docente, specifici capitoli dei testi consigliati.

Verifica dell'apprendimento

Modalità di verifica dell'apprendimento

-->

L’esame si articola nelle seguenti prove:

  • Uno scritto, volto a verificare le competenze teoriche dello studente in merito agli argomenti trattati nel corso, da un punto di vista teorico e metodologico. La prova è valutata con un voto in trentesimi.
  • Un progetto, assegnato dal docente e svolto in autonomia dallo studente, volto a verificare le competenze pratiche di analisi dei dati e comunicazione dei risultati. Il progetto viene presentato al docente mediante una presentazione e valutato con un voto in trentesimi.

Gli studenti con disabilità e/o DSA dovranno contattare con sufficiente anticipo rispetto alla data dell'esame il docente, il referente CInAP del DMI (prof.ssa Daniele) e il CInAP per comunicare che intendono sostenere l'esame fruendo delle opportune misure compensative.

Sono previste due prove in itinere in forma scritta durante il corso. Il superamento delle due prove dà diritto all'esonero dalla prova scritta.

Il voto finale è ottenuto mediante una media pesata tra i voti ottenuti nelle due prove con pesi pari a 40% per la prova scritta e 60% per il progetto.

La verifica dell’apprendimento potrà essere effettuata anche per via telematica, qualora le condizioni lo dovessero richiedere.


La votazione di ciascuna prova è espressa in trentesimi secondo il seguente schema: 


Voto 29-30 e lode 

Lo studente ha una conoscenza approfondita dei concetti e delle tecniche di analisi dei dati. Riesce prontamente ad analizzare i problemi di analisi dei dati, individuando le tecniche di analisi dei dati più idonee alla risoluzione del problema considerato in maniera autonoma e con spirito critico e indicando le pratiche metodologiche più idonee per la loro applicazione. Ha ottime capacità comunicative e proprietà di linguaggio. 

Voto 26-28 

Lo studente ha una buona conoscenza dei concetti e delle tecniche di analisi dei dati. Riesce ad analizzare i problemi di analisi dei dati, individuando tecniche di analisi dei dati idonee alla risoluzione del problema considerato e indicando le pratiche metodologiche più idonee per la loro applicazione. Ha buone capacità comunicative e proprietà di linguaggio. 

Voto 22-25 

Lo studente ha una discreta conoscenza dei concetti e delle tecniche di analisi dei dati, anche se si limita agli argomenti principali. Riesce ad analizzare i problemi di analisi dei dati, seppure non sempre in maniera lineare, individuando tecniche di analisi dei dati idonee alla risoluzione del problema considerato. Ha discrete capacità comunicative e una discreta proprietà di linguaggio. 

Voto 18-21 

Lo studente ha la minima conoscenza dei concetti e delle tecniche di analisi dei dati. Ha una modesta capacità di analizzare i problemi di analisi dei dati. Ha sufficienti capacità comunicative, seppure non sempre una appropriata proprietà di linguaggio. 

Esame non superato 

Lo studente non possiede la conoscenza minima richiesta dei contenuti principali dell’insegnamento. La capacità di utilizzare il linguaggio specifico è scarsissima o nulla e non è in grado di applicare autonomamente le conoscenze acquisite.

-->

Esempi di domande e/o esercizi frequenti

-->

Il progetto di analisi dei dati è generalmente basato su dataset di dimensioni medio-grandi ottenibili in rete.

Esempi di domande d'esame tipo:

  • Si definisca il problema della classificazione, si discutano le differenze rispetto al problema della regressione e si riportino degli esempi pratici.
  • Si illustri l’algoritmo K-NN per la classificazione. Si discuta l’effetto del parametro K sulle performance dell’algoritmo. Si facciano degli esempi grafici del funzionamento dell’algoritmo e dell’effetto di K. 
  • Si discutano le misure di valutazione per i problemi di classificazione: accuracy, matrice di confusione, precision, recall e score F1. Si discutano i pro e i contro delle misure considerate, anche in relazione alle caratteristiche del dataset di test. 
  • Si illustrino le principali tecniche utili per studiare la correlazione tra variabili.

ENGLISH VERSION