SOCIAL MEDIA DATA ANALYSIS

Anno accademico 2023/2024 - Docente: FRANCESCO RAGUSA

Risultati di apprendimento attesi

  1. Conoscenza e capacità di comprensione (knowledge and understanding): lo studente acquisirà le conoscenze e i concetti alla base dei social media e dell'analisi dei dati di varia natura da essi provenienti. 
  2. Capacità di applicare conoscenza e comprensione (applying knowledge and understanding): lo studente acquisirà le competenze pratiche di design e realizzazione di sistemi di analisi dei dati estratti dai social media. 
  3. Autonomia di giudizio (making judgements): Attraverso i laboratori e i progetti assegnati agli studenti, essi saranno in grado di elaborare autonomamente soluzioni in grado di risolvere i problemi di base che potrebbero presentarsi nel mondo del lavoro. 
  4. Abilità comunicative (communication skills): lo studente acquisirà le necessarie abilità comunicative e di appropriatezza espressiva nell'impiego del linguaggio tecnico e formale nell'ambito generale dei social media e dell'analisi dei dati. 
  5. Capacità di apprendimento (learning skills): ll corso si propone di approfondire teorie e tecniche utili per la creazione di sistemi di analisi di dati multimediali (immagini, testo, tag, metadati) presenti nei social media. I discenti acquisiranno conoscenze e capacità utili all'analisi di grosse moli di dati multimediali presenti nei social media. Le conoscenze acquisite saranno applicate attraverso attività laboratoriali e progettuali. 

Modalità di svolgimento dell'insegnamento

Lezioni frontali, laboratorio e seminari.

Prerequisiti richiesti

Si utilizzeranno alcune nozioni di base delle seguenti materie:

  • Elementi di Analisi Matematica
  • Strutture Discrete
  • Fondamenti di Informatica
  • Programmazione
  • Interazione e Multimedia
  • Algoritmi


Frequenza lezioni

Non obbligatoria ma altamente consigliata.

Contenuti del corso

  • Social media: definizione, caratteristiche e breve storia  
  • API e librerie per l'estrapolazione, il trattamento e la visualizzazione dei dati presenti nei Social Media, Web Scraping  
  • Introduzione all’analisi dei testi, metodi per la rappresentazione e manipolazione: espressioni regolari, tokenization, part of speech tagging, named entity recognition, lemmatization, bag of words model, sentiment analysis, word embeddings 
  • Problemi di information retrieval e misure di valutazione. Nearest neighbor search.  
  • Problemi di predizione e classificazione, misure di valutazione. Classificazione MAP e Naive Bayes.  
  • Applicazione della Regressione lineare per image popularity estimation  
  • Sistemi di raccomandazione  
  • Sentiment Analysis sui social media utilizzando VADER (Valence Aware Dictionary for Sentiment Reasoning)  
  • Introduzione all’analisi delle immagini sui social media: modello Bag of Visual Words. 
  • Librerie in Python per l'analisi di dati provenienti dai social media  
  • Seminari di approfondimento di alcune tematiche legate ai social media (es. privacy, law, psychological) 

Testi di riferimento

Programmazione del corso

 ArgomentiRiferimenti testi
1Introduzione ai Social MediaMateriale didattico fornito dal docente e risorse online.
2Cenni di teoria della probabilitàMateriale didattico fornito dal docente e risorse online. Parti del capitolo 1 di ''Pattern Recognition and Machine Learning", capitolo 2 di "Deep Learning".
3Social Media API e Web ScrapingMateriale didattico fornito dal docente e risorse online.
4Introduzione all'analisi dei testi: nalisi dei testi, metodi per la rappresentazione e manipolazione: tokenization, part of speech tagging, named entity recognition, lemmatization, bag of words model, sentiment analysis, word embeddings, espressioni regolariMateriale didattico fornito dal docente e risorse online.
5Information Retrieval e misure di valutazione. Nearest Neighbour, cosine distance, Bhattacharyya distanceMateriale didattico fornito dal docente e risorse online.
6Modello Bag of Visual Words. Image Retrieval (K-means) Materiale didattico fornito dal docente e risorse online.
7Problema della classificazione e misure di valutazioneMateriale didattico fornito dal docente e risorse online. Sezione 4.1 di ''An Introduction to Statistical Learning".
8Algoritmo di classificazione K-Nearest Neighbor Materiale didattico fornito dal docente e risorse online. Sezione 2.5.2 di ''Pattern Recognition e Machine Learning'' .
9Classificazione MAP e Naive Bayes Materiale didattico fornito dal docente e risorse online.
10Regressione Lineare: caso applicativo per Image Popularity Materiale didattico fornito dal docente e risorse online.
11Sistemi di Raccomandazione Materiale didattico fornito dal docente e risorse online. Capitolo 9 di "Mining Massive Datasets".
12Sentiment analysis sui social Materiale didattico fornito dal docente e risorse online.
13Analisi avanzata di testi:  bag of words, word embeddings Materiale didattico fornito dal docente e risorse online.

Verifica dell'apprendimento

Modalità di verifica dell'apprendimento

Scritto, progetto e colloquio orale. 

La votazione è espressa in trentesimi secondo il seguente schema: 

Voto 29-30 e lode 

Lo studente ha una conoscenza approfondita dei concetti fondamentali e dei principali argomenti per la gestione e manipolazione di dati provenienti dai Social Media. Riesce a formalizzare problemi, individuando gli algoritmi e le tecniche più idonee alla risoluzione dei problemi considerati in maniera autonoma e con spirito critico. Ha ottime capacità comunicative e proprietà di linguaggio. 

Voto 26-28 

Lo studente ha una buona conoscenza dei concetti fondamentali e dei principali argomenti per la gestione e manipolazione di dati provenienti dai Social Media. Riesce a formalizzare problemi, individuando degli algoritmi e tecniche idonee alla risoluzione dei problemi considerati. Ha buone capacità comunicative e proprietà di linguaggio. 

Voto 22-25 

Lo studente ha una discreta conoscenza dei concetti fondamentali e dei principali argomenti per la gestione e manipolazione di dati provenienti dai Social Media. Riesce a formalizzare problemi, seppure non sempre in maniera esaustiva, individuando degli algoritmi e tecniche idonee alla risoluzione del problema considerato. Ha discrete capacità comunicative e proprietà di linguaggio. 

Voto 18-21 

Lo studente ha la minima conoscenza dei concetti fondamentali e dei principali argomenti per la gestione e manipolazione di dati provenienti dai Social Media. Ha una modesta capacità di formalizzare problemi, e di individuare degli algoritmi e tecniche idonee alla risoluzione dei problemi considerati. Ha sufficienti capacità comunicative, seppure non sempre una appropriata proprietà di linguaggio. 

Esame non superato 

Lo studente non possiede la conoscenza minima richiesta dei contenuti principali dell’insegnamento. La capacità di utilizzare il linguaggio specifico è scarsissima o nulla e non è in grado di applicare autonomamente le conoscenze acquisite.

Esempi di domande e/o esercizi frequenti

  • Si illustrino i passaggi principali dell’algoritmo di rappresentazione Bag of Visual Words, discutendo le similarità con il modello Bag of Words. 
  • Si illustri l’algoritmo GloVe utilizzando l’opportuna notazione. Si discuta qual è la principale intuizione dietro l’algoritmo. Si scriva la funzione costo utilizzata per ottimizzare il modello. 
  • Si illustri l’algoritmo VADER definendo i vari passaggi necessari per associare uno score di polarità a un testo. 
  • Si illustri l’algoritmo Naive Bayes. Si spieghi perché viene introdotta l’ipotesi naive e in che modo viene implementato l’algoritmo. 
  • Si definiscano gli elementi fondamentali di una espressione regolare. Si riporti qualche esempio di espressione regolare e match ottenuti da un testo di esempio. 
  • Si illustri l’algoritmo di rappresentazione Bag of Words. Si illustrino i passaggi fondamentali dell’algoritmo e si facciano degli esempi per discutere la logica dietro l’algoritmo. Si discutano le normalizzazioni L1 e TF-IDF, e si spieghi qual è l’effetto di queste normalizzazioni.