SOCIAL MEDIA DATA ANALYSIS
Anno accademico 2024/2025 - Docente: FRANCESCO RAGUSARisultati di apprendimento attesi
- Conoscenza e capacità di comprensione (knowledge and understanding): lo studente acquisirà le conoscenze e i concetti alla base dei social media e dell'analisi dei dati di varia natura da essi provenienti.
- Capacità di applicare conoscenza e comprensione (applying knowledge and understanding): lo studente acquisirà le competenze pratiche di design e realizzazione di sistemi di analisi dei dati estratti dai social media.
- Autonomia di giudizio (making judgements): Attraverso i laboratori e i progetti assegnati agli studenti, essi saranno in grado di elaborare autonomamente soluzioni in grado di risolvere i problemi di base che potrebbero presentarsi nel mondo del lavoro.
- Abilità comunicative (communication skills): lo studente acquisirà le necessarie abilità comunicative e di appropriatezza espressiva nell'impiego del linguaggio tecnico e formale nell'ambito generale dei social media e dell'analisi dei dati.
- Capacità di apprendimento (learning skills): ll corso si propone di approfondire teorie e tecniche utili per la creazione di sistemi di analisi di dati multimediali (immagini, testo, tag, metadati) presenti nei social media. I discenti acquisiranno conoscenze e capacità utili all'analisi di grosse moli di dati multimediali presenti nei social media. Le conoscenze acquisite saranno applicate attraverso attività laboratoriali e progettuali.
Modalità di svolgimento dell'insegnamento
Lezioni frontali, laboratorio e seminari.
Prerequisiti richiesti
Si utilizzeranno alcune nozioni di base delle seguenti materie:
- Elementi di Analisi Matematica
- Strutture Discrete
Fondamenti di Informatica Programmazione Interazione e Multimedia Algoritmi
Frequenza lezioni
Obbligatoria.
Contenuti del corso
Social media: definizione, caratteristiche e breve storia API e librerie per l'estrapolazione, il trattamento e la visualizzazione dei dati presenti nei Social Media, Web Scraping Introduzione all’analisi dei testi, metodi per la rappresentazione e manipolazione: espressioni regolari, tokenization, part of speech tagging, named entity recognition, lemmatization, bag of words model, sentiment analysis, word embeddings Problemi di information retrieval e misure di valutazione. Nearest neighbor search. Problemi di predizione e classificazione, misure di valutazione. Classificazione MAP e Naive Bayes. Applicazione della Regressione lineare per image popularity estimation Sistemi di raccomandazione Sentiment Analysis sui social media utilizzando VADER (Valence Aware Dictionary for Sentiment Reasoning) Introduzione all’analisi delle immagini sui social media: modello Bag of Visual Words. Librerie in Python per l'analisi di dati provenienti dai social media Seminari di approfondimento di alcune tematiche legate ai social media (es. privacy, law, psychological)
Testi di riferimento
- R. Zafarani, M. A. Abbasi, H. Liu, Social Media Mining - An Introduction, Cambridge University Press, 2014
- James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning. New York: springer
- C. Bishop, Pattern Recognition and Machine Learning, Springer, 2006
- E. Alpaydin, Introduction to Machine Learning, The MIT Press, 2009
- Y. Bengio, I. J. Goodfellow, A.Courville, Deep Learning, Book in preparation for MIT Press, 2015
- Duda, P. E. Hart, D. G. Stork, Pattern Classification (2nd ed.), Wiley, 2000
- R. Szeliski, Computer Vision: Algorithms and Application, Springer 2010
- J. Leskovec, A. Rajaraman, J. D. Ullman, Mining of Massive Datasets, Cambridge University Press, 2011
- Y. Bengio, I. J. Goodfellow, A.Courville, Deep Learning, Book in preparation for MIT Press, 2015
Programmazione del corso
Argomenti | Riferimenti testi | |
---|---|---|
1 | Introduzione ai Social Media | Materiale didattico fornito dal docente e risorse online. |
2 | Cenni di teoria della probabilità | Materiale didattico fornito dal docente e risorse online. Parti del capitolo 1 di ''Pattern Recognition and Machine Learning", capitolo 2 di "Deep Learning". |
3 | Social Media API e Web Scraping | Materiale didattico fornito dal docente e risorse online. |
4 | Introduzione all'analisi dei testi: nalisi dei testi, metodi per la rappresentazione e manipolazione: tokenization, part of speech tagging, named entity recognition, lemmatization, bag of words model, sentiment analysis, word embeddings, espressioni regolari | Materiale didattico fornito dal docente e risorse online. |
5 | Information Retrieval e misure di valutazione. Nearest Neighbour, cosine distance, Bhattacharyya distance | Materiale didattico fornito dal docente e risorse online. |
6 | Modello Bag of Visual Words. Image Retrieval (K-means) | Materiale didattico fornito dal docente e risorse online. |
7 | Problema della classificazione e misure di valutazione | Materiale didattico fornito dal docente e risorse online. Sezione 4.1 di ''An Introduction to Statistical Learning". |
8 | Algoritmo di classificazione K-Nearest Neighbor | Materiale didattico fornito dal docente e risorse online. Sezione 2.5.2 di ''Pattern Recognition e Machine Learning'' . |
9 | Classificazione MAP e Naive Bayes | Materiale didattico fornito dal docente e risorse online. |
10 | Regressione Lineare: caso applicativo per Image Popularity | Materiale didattico fornito dal docente e risorse online. |
11 | Sistemi di Raccomandazione | Materiale didattico fornito dal docente e risorse online. Capitolo 9 di "Mining Massive Datasets". |
12 | Sentiment analysis sui social | Materiale didattico fornito dal docente e risorse online. |
13 | Analisi avanzata di testi: bag of words, word embeddings | Materiale didattico fornito dal docente e risorse online. |
Verifica dell'apprendimento
Modalità di verifica dell'apprendimento
Scritto e progetto. La votazione finale sarà ottenuta dalla media pesata delle varie prove. I voti delle prove saranno pubblicati sul canale Teams del corso (codice vo3q1m6).
Gli studenti con disabilità e/o DSA dovranno contattare con sufficiente anticipo rispetto alla data dell'esame il docente, il referente CInAP del DMI (prof.ssa Daniele) e il CInAP per comunicare che intendono sostenere l'esame fruendo delle opportune misure compensative.
La votazione è espressa in trentesimi secondo il seguente schema:
Voto 22-25
Voto 18-21
Esempi di domande e/o esercizi frequenti
- Si illustrino i passaggi principali dell’algoritmo di rappresentazione Bag of Visual Words, discutendo le similarità con il modello Bag of Words.
- Si illustri l’algoritmo GloVe utilizzando l’opportuna notazione. Si discuta qual è la principale intuizione dietro l’algoritmo. Si scriva la funzione costo utilizzata per ottimizzare il modello.
- Si illustri l’algoritmo VADER definendo i vari passaggi necessari per associare uno score di polarità a un testo.
- Si illustri l’algoritmo Naive Bayes. Si spieghi perché viene introdotta l’ipotesi naive e in che modo viene implementato l’algoritmo.
- Si definiscano gli elementi fondamentali di una espressione regolare. Si riporti qualche esempio di espressione regolare e match ottenuti da un testo di esempio.
- Si illustri l’algoritmo di rappresentazione Bag of Words. Si illustrino i passaggi fondamentali dell’algoritmo e si facciano degli esempi per discutere la logica dietro l’algoritmo. Si discutano le normalizzazioni L1 e TF-IDF, e si spieghi qual è l’effetto di queste normalizzazioni.