INTRODUZIONE AL DATA MINING
Anno accademico 2020/2021 - 3° anno - Curriculum ACrediti: 9
Organizzazione didattica: 225 ore d'impegno totale, 153 di studio individuale, 36 di lezione frontale, 36 di esercitazione
Semestre: 1°
Obiettivi formativi
Obiettivi formativi generali dell'insegnamento in termini di risultati di apprendimento attesi.
- Conoscenza e capacità di comprensione (knowledge and understanding): Il corso mira a formare le conoscenze e le competenze di base per l’analisi, la rappresentazione, e l’organizzazione di dati.
- Capacità di applicare conoscenza e comprensione (applying knowledge and understanding): lo studente acquisirà conoscenze riguardo ai modelli e gli algoritmi per l’analisi dei dati quali: mining ad alto supporto, sistemi di raccomandazione, ricerca di similarità, classificazione, clustering, text mining, network analysis.
- Autonomia di giudizio (making judgements): Attraverso esempi concreti e casi di studio, lo studente sarà in grado di elaborare autonomamente soluzioni a determinati problemi legati all'analisi dei dati.
- Abilità comunicative (communication skills): lo studente acquisirà le necessarie abilità comunicative e di appropriatezza espressiva nell'impiego del linguaggio tecnico nell'ambito generale dell'analisi dei dati.
- Capacità di apprendimento (learning skills): il corso si propone, come obiettivo, di fornire allo studente le necessarie metodologie teoriche e pratiche per poter affrontare e risolvere autonomamente nuove problematiche che dovessero sorgere durante una attività lavorativa. A tale scopo diversi argomenti saranno trattati a lezione coinvolgendo lo studente nella ricerca di possibili soluzioni a problemi reali, utilizzando benchmark disponibili in letteratura.
Modalità di svolgimento dell'insegnamento
Lezioni frontali
Qualora l'insegnamento venisse impartito in modalità mista o a distanza potranno essere introdotte le necessarie variazioni rispetto a quanto dichiarato in precedenza, al fine di rispettare il programma previsto e riportato nel syllabus.
Prerequisiti richiesti
Programmazione, strutture dati, algoritmi su grafi.
Frequenza lezioni
Le risorse principali messe a disposizione dello studente sono le lezioni frontali, la cui frequenza è fortemente consigliata.
Per seguire meglio le lezioni, vengono messe a disposizione le slide utilizzate per il corso. Le slide non costituiscono un mezzo di studio: forniscono un dettaglio puntuale sugli argomenti trattati a lezione.
Contenuti del corso
- Background
- Cenni su probabilità e statistica
- Entropia
- Introduzione ad R
- Data Mining ad alto supporto (apriori, insiemi frequenti)
- Reccommendation Systems
- Clustering (gerarchico, k-means, density-based)
- Classificazione (alberi decisionali, SVM, Estrattori di Regole)
- Classificatori Bayesiani
- Probabilistic Graphical Models (Catene di Markov, HMM)
- Networks (Misure di centralità, Coefficiente di Clustering)
- Cenni sulle reti neurali e sul Deep Learning
Testi di riferimento
- Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeff Ullman, http://www.mmds.org
- Data Mining: Concepts and Techniques, Jiawei Han and Micheline Kamber, The Morgan Kaufmann Series in Data Management Systems
- The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Trevor Hastie,Robert Tibshirani, Jerome Friedman, Springer
Programmazione del corso
Argomenti | Riferimenti testi | |
---|---|---|
1 | Introduzione al data mining: problemi, strumenti. | materiale didattico fornito dal docente |
2 | Cenni di probabilità e statistica | materiale didattico fornito dal docente |
3 | Introduzione ad R | materiale didattico fornito dal docente |
4 | Data mining ad alto supporto | materiale didattico fornito dal docente |
5 | Recommendation Systems: definizione, algoritmi, e strumenti di valutazione | materiale didattico fornito dal docente |
6 | Clustering | materiale didattico fornito dal docente |
7 | Classificazione: alberi decisionali e SVM | materiale didattico fornito dal docente |
8 | Classificazione: estrattori di regole e classificatori bayesiani | materiale didattico fornito dal docente |
9 | Predizione: regressione, regressione logistica | materiale didattico fornito dal docente |
10 | Esercitazione pratica in R | materiale didattico fornito dal docente |
11 | Probabilistic Graphical Models | materiale didattico fornito dal docente |
12 | Networks | materiale didattico fornito dal docente |
13 | Cenni su reti neurali e deep learning | materiale didattico fornito dal docente |
Verifica dell'apprendimento
Modalità di verifica dell'apprendimento
L'esame finale consiste in una prova scritta, ed un colloquio orale nel quale viene discusso un progetto ed un recente articolo scientifico su problemi inerenti al corso.
La prova scritta è costituita da esercizi e domande di teoria.
Chi non supera la prova scritta, non può sostenere l'orale. La prova scritta può essere visionata prima delle prove orali.
Il progetto dovrà essere completato entro 30 giorni dal superamento della prova scritta.
Salvo diversa comunicazione:
- l'esame scritto si svolge alle ore 9:00
Note:
- È vietato l'uso di qualsiasi strumento hardware (calcolatrici, tablet, smartphone, cellulari, auricolari BT etc.), di libri o documenti personali durante gli esami (scritti).
- Per sostenere gli esami è obbligatorio prenotarsi utilizzando l'apposito modulo del portale CEA.
- Non sono ammesse prenotazioni tardive tramite email. In mancanza di prenotazione, l'esame non può essere verbalizzato.
- La verifica dell’apprendimento potrà essere effettuata anche per via telematica, qualora le condizioni lo dovessero richiedere.
- (Learning assessment may also be carried out on line, should the conditions require it.)
Esempi di domande e/o esercizi frequenti
Esempi saranno pubblicati sul portale www.studium.unict.it