AUDIO PROCESSING

Anno accademico 2023/2024 - Docente: DARIO ALLEGRA

Risultati di apprendimento attesi

Il corso fornisce un’introduzione al mondo dell’Audio Processing (Elaborazione di segnali audio) attraverso approfondimenti mirati in Acustica, Psicoacustica, Digitalizzazione dell’audio, Compressione dell’audio, Formati audio e librerie utili per la programmazione orientata al trattamento dei segnali sonori.
Durante il corso sono previsti approfondimenti integrativi su argomenti come le soglie di tolleranza al rumore sul posto di lavoro, l’impatto di Shannon sulla materia, o il tool ffmpeg per la gestione degli stream audio/video.
Inoltre, sulla base della positiva esperienza degli anni precedenti del corso, ulteriori argomenti integrativi verranno presentati nella forma di seminari integrativi.

Obiettivi formativi generali dell'insegnamento in termini di risultati di apprendimento attesi.

  1. Conoscenza e capacità di comprensione (knowledge and understanding): l'obiettivo del corso è quello di far acquisire conoscenze che consentano allo studente di comprendere i meccanismi teorici e fisici che stanno alla base del sistema uditivo umano, della formazione ed elaborazione del suono e dei segnali audio, del miglioramento della qualità dei segnali audio.
  2. Capacità di applicare conoscenza e comprensione (applying knowledge and understanding): lo studente acquisirà le competenze necessarie per acquisire, editare, comprimere e salvare un segnale audio. In particolare una parte del corso sarà relativa all'approfondimento di software specifici per applicare tali conoscenze teoriche.
  3. Autonomia di giudizio (making judgements): Attraverso esempi in aula lo studente sarà messo nelle condizioni di comprendere se le soluzioni da lui proposte soddisfano un certo grado di qualità.
  4. Abilità comunicative (communication skills): lo studente acquisirà le necessarie abilità comunicative e la proprietà di linguaggio tecnico nell'ambito del settore dell'Informatica Musicale.
  5. Capacità di apprendimento (learning skills): il corso si propone, come obiettivo, di fornire allo studente le necessarie metodologie teoriche e pratiche per poter affrontare e risolvere autonomamente nuove problematiche che dovessero sorgere durante una attività lavorativa. A tale scopo diversi argomenti saranno trattati a lezione coinvolgendo lo studente nella ricerca di possibili soluzioni a problemi reali.

Modalità di svolgimento dell'insegnamento

Didattica Frontale

Seminari integrativi

Qualora l'insegnamento venisse impartito in modalità mista o a distanza potranno essere introdotte le necessarie variazioni rispetto a quanto dichiarato in precedenza, al fine di rispettare il programma previsto e riportato nel syllabus

Prerequisiti richiesti

Non ci sono requisiti specifici.

Frequenza lezioni

E' fortemente consigliata la frequenza delle lezioni.

Contenuti del corso

  • Acustica
    • Differenza fra suono e audio
    • Definizioni delle proprietà fisiche delle onde
    • Root Mean Square (RMS)
    • Decibel
    • Legge dell’inverso del quadrato
    • Velocità del suono
    • Rifrazione, Riflessione, Diffrazione, Eco, Effetto Doppler, Bang Supersonico
    • Ottave in scala diatonica e temperata
    • Introduzione all’analisi di Fourier
    • Ampiezza e inviluppo
    • Rumori colorati
  • Psicoacustica
    • Fisica e cognizione, fisiologia dell’udito
    • Soglie di tolleranza al rumore sul posto di lavoro
    • Parametri della percezione
    • Diagramma di Fletcher-Munson
    • Timbro e formanti
    • Bande critiche uditive
    • Mascheramento tonale e non tonale
    • Localizzazione delle sorgenti sonore
  • Digitalizzazione
    • Rappresentazione digitale del suono
    • Indice SNR
    • Campionamento e Aliasing
    • Quantizzazione
    • Rumore SNR e SQNR
    • Codifica del segnale audio
    • Codifica PCM
    • Codici ECC e bit di parità
    • Rappresentazioni dell’ampiezza della forma d’onda
    • Equalizzatori grafici e parametrici
    • Filtri: HPF, LPF, Shelving, Peaking, Telephone, Walkie-Talkie, ecc.
    • Operazioni e operatori sul range dinamico
  • Compressione
    • Compressione del silenzio
    • Spazio occupato in memoria
    • Codifiche μ-law e A-law
    • Ri-Quantizzazione
    • Codifiche DPCM e ADPCM
    • Fattori di compressione
    • Entropia percettiva
    • La tecnica Compansion
    • Compressione di tipo percettivo: Block Coding, Transform Coding, Sub-band Coding e Huffman Coding
  • Formati Audio
    • Formato MPEG e le sue varianti più importanti
    • MP1, MP2 e MP3
    • Formati audio avanzati
    • Il tool FFmpeg
    • Protocollo MIDI e messaggi MIDI
  • Librerie Audio utili e script di interesse
    • Conversione di formato audio usando FFmpeg
    • Laboratorio Python
    • Lettura, conversione, elaborazione e scrittura di un file audio
  • Seminari integrativi

Testi di riferimento

  • Lombardo, V., & Valle, A. (2014). Audio e Multimedia (IV ed.) Apogeo.
  • For international students: Kirk, R. & Hunt, A. (1999). Digital Sound Processing for Music and Multimedia Focal Press.
  • Tarabella, L. (2014). Musica Informatica Apogeo.
  • Rocchesso, D. (2003). Sound Processing

Programmazione del corso

 ArgomentiRiferimenti testi
1AcusticaCapitolo 1 di "Audio e Multimedia"
2PsicoacusticaCapitolo 2 di "Audio e Multimedia"
3DigitalizzazioneCapitolo 3 di "Audio e Multimedia"
4CompressioneCapitolo 4 di "Audio e Multimedia"
5MIDICapitolo 6 di "Audio e Multimedia"
6MPEGCapitolo 4 di "Audio e Multimedia"
7Seminari sugli argomenti del corsoOnline/Slide
8FOR ERASMUS STUDENTSDigital Sound Processing for Music and Multimedia, Ross Kirk, Andy Hunt

Verifica dell'apprendimento

Modalità di verifica dell'apprendimento

L'esame si articola in 2 fasi:

Fase (1) Agli studenti sarà somministrato un test a risposta multipla di 10 domande su MS Teams. Lo studente che risponderà correttamente ad almeno 6 domande passerà alla fase (2). Altrimenti, l'esame si concluderà con un'insufficienza e lo studente verrà rimandato al prossimo appello. Questo punteggio è chiamato A.

Fase (2) Gli studenti sosterranno un breve test scritto in cui verrà richiesto di svolgere qualche esercizio. Alla fine di questa fase allo studente verrà assegnato un punteggio compreso tra 0 e 8, in base alla qualità delle risposte. Questo punteggio è chiamato B.

Conclusione: il voto della parte di teoria è calcolato facendo A*3+ (B-4). Se tale voto è maggiore o uguale a 18 la parte di teoria risulta superata con quel voto. Altrimenti la prova risulterà insufficiente e lo studente sarà rimandato ai prossimi appelli. Le due fasi non possono essere separate e sostenute in appelli diversi. Costituiscono un'unica prova d'esame.

E' prevista una prova in itinere nel periodo di sospensione delle lezioni per prove in itinere previsto dal Corso di Laurea. Le date sono riportate su http://web.dmi.unict.it/corsi/l-31/calendario-didattico

La verifica dell’apprendimento potrà essere effettuata anche per via telematica, qualora le condizioni lo dovessero richiedere.

La prova è strutturata in modo che ad ogni studente sia attribuito un voto secondo il seguente schema:

Non approvato: lo studente non ha acquisito i concetti di base e non è in grado di rispondere ad almeno il 60% delle domande né di svolgere gli esercizi.

18-23: lo studente dimostra una padronanza minima dei concetti di base, le sue capacità  di collegamento dei contenuti sono modeste, riesce a risolvere semplici esercizi.

24-27:  lo studente dimostra una buona padronanza dei contenuti del corso, le sue capacità di collegamento dei contenuti sono buone,  risolve gli esercizi con pochi errori.

28-30 e lode: lo studente ha acquisito tutti i contenuti del corso ed è in grado di padroneggiarli compiutamente e di collegarli con spirito critico; risolve gli esercizi in modo completo e senza errori.

Esempi di domande e/o esercizi frequenti

  1. Perché è preferibile parlare di volume “percepito”?
  2. Cosa sono le curve isofoniche? Come sono fatte?
  3. Cos’è il phon? Com’è legato ai decibel SPL?
  4. Qual è il volume percepito in phon di un suono a frequenza 1 KHz e ampiezza 200 dB SPL?
  5. Ha senso operare una compressione dei dati audio eliminando le frequenze tra 1 e 5 KHz a favore delle basse e delle alte? Motivare
  6. Cos’è il mascheramento frequenziale? Descrivere il fenomeno. 
  7. Qual è la differenza con il mascheramento temporale?  (non è necessario descrivere dettagliatamente il fenomeno del mascheramento temporale)
  8. Perché entrambi possono essere impiegati per comprimere un segnale audio?