AUDIO PROCESSING
Anno accademico 2024/2025 - Docente: DARIO ALLEGRARisultati di apprendimento attesi
Il corso fornisce un’introduzione al mondo dell’Audio Processing (Elaborazione di segnali audio) attraverso approfondimenti mirati in Acustica, Psicoacustica, Digitalizzazione dell’audio, Compressione dell’audio, Formati audio e librerie utili per la programmazione orientata al trattamento dei segnali sonori. Durante il corso sono previsti approfondimenti integrativi su argomenti.
Obiettivi formativi generali dell'insegnamento in termini di risultati di apprendimento attesi.
- Conoscenza e capacità di comprensione (knowledge and understanding): l'obiettivo del corso è quello di far acquisire conoscenze che consentano allo studente di comprendere i meccanismi teorici e fisici che stanno alla base del sistema uditivo umano, della formazione ed elaborazione del suono e dei segnali audio, del miglioramento della qualità dei segnali audio.
- Capacità di applicare conoscenza e comprensione (applying knowledge and understanding): lo studente acquisirà le competenze necessarie per acquisire, editare, comprimere e salvare un segnale audio. In particolare una parte del corso sarà relativa all'approfondimento di software specifici per applicare tali conoscenze teoriche.
- Autonomia di giudizio (making judgements): Attraverso esempi in aula lo studente sarà messo nelle condizioni di comprendere se le soluzioni da lui proposte soddisfano un certo grado di qualità.
- Abilità comunicative (communication skills): lo studente acquisirà le necessarie abilità comunicative e la proprietà di linguaggio tecnico nell'ambito del settore dell'Informatica Musicale.
- Capacità di apprendimento (learning skills): il corso si propone, come obiettivo, di fornire allo studente le necessarie metodologie teoriche e pratiche per poter affrontare e risolvere autonomamente nuove problematiche che dovessero sorgere durante una attività lavorativa. A tale scopo diversi argomenti saranno trattati a lezione coinvolgendo lo studente nella ricerca di possibili soluzioni a problemi reali.
Modalità di svolgimento dell'insegnamento
Didattica Frontale
Seminari integrativi
Qualora l'insegnamento venisse impartito in modalità mista o a distanza potranno essere introdotte le necessarie variazioni rispetto a quanto dichiarato in precedenza, al fine di rispettare il programma previsto e riportato nel syllabus.
Accesso al materiale didattico fornito dal docente su MS Teams, nel Team "Audio Processing", codice: z93t1vp
Tutte le comunicazioni avverranno sul canale Telegram ufficiale del corso, pertanto gli studenti sono pregati ad accedere: https://t.me/+-T70U1uiNAUxNjBk
Prerequisiti richiesti
Non ci sono requisiti specifici.
Frequenza lezioni
La frequenza è obbligatoria.
Contenuti del corso
- Acustica
- Differenza fra suono e audio
- Definizioni delle proprietà fisiche delle onde
- Introduzione all’analisi di Fourier
- Legge dell’inverso del quadrato
- Velocità del suono
- Rifrazione, Riflessione, Diffrazione, Eco, Effetto Doppler, Bang Supersonico
- Ottave in scala diatonica e temperata
- Decibel
- Ampiezza e inviluppo
- Rumori colorati
- Psicoacustica
- Fisica e cognizione, fisiologia dell’udito
- Parametri della percezione
- Diagramma di Fletcher-Munson
- Timbro e formanti
- Bande critiche uditive
- Mascheramento tonale e non tonale
- Localizzazione delle sorgenti sonore
- Digitalizzazione
- Rappresentazione digitale del suono
- Indice SNR
- Campionamento e Aliasing
- Quantizzazione uniforme e non uniforme
- Rumore SNR e SQNR
- Codifica del segnale audio
- Codifica PCM
- Rappresentazioni dell’ampiezza della forma d’onda
- Operazioni e operatori sul range dinamico
- Compressione
- Spazio occupato in memoria
- Codifiche μ-law e A-law
- Ri-Quantizzazione
- Codifiche DPCM e ADPCM
- Fattori di compressione
- Entropia percettiva
- La tecnica Compansion
- Compressione di tipo percettivo: Block Coding, Transform Coding, Sub-band Coding e Huffman Coding
- Spazio occupato in memoria
- Formati Audio
- Formato MPEG e le sue varianti più importanti
- MP1, MP2 e MP3
- Formati audio avanzati
- FFmpeg
- Protocollo MIDI e messaggi MIDI
- Librerie Audio utili e script di interesse
- Conversione di formato audio usando FFmpeg
- Laboratorio Python
- Seminari integrativi
Testi di riferimento
- Lombardo, V., & Valle, A. (2014). Audio e Multimedia (IV ed.) Apogeo.
- For international students: Kirk, R. & Hunt, A. (1999). Digital Sound Processing for Music and Multimedia Focal Press.
- Tarabella, L. (2014). Musica Informatica Apogeo.
- Rocchesso, D. (2003). Sound Processing
Programmazione del corso
Argomenti | Riferimenti testi | |
---|---|---|
1 | Acustica | Capitolo 1 di "Audio e Multimedia" |
2 | Psicoacustica | Capitolo 2 di "Audio e Multimedia" |
3 | Digitalizzazione | Capitolo 3 di "Audio e Multimedia" |
4 | Compressione | Capitolo 4 di "Audio e Multimedia" |
5 | MIDI | Capitolo 6 di "Audio e Multimedia" |
6 | MPEG | Capitolo 4 di "Audio e Multimedia" |
7 | Seminari sugli argomenti del corso | Online/Slide |
8 | FOR ERASMUS STUDENTS | Digital Sound Processing for Music and Multimedia, Ross Kirk, Andy Hunt |
Verifica dell'apprendimento
Modalità di verifica dell'apprendimento
Per poter accedere all'esame, in accordo con il regolamento, è OBBLIGATORIA la prenotazione sul portale Smart Edu e su qualunque altra piattaforma, come MS Forms, richiesta dal docente per poter ottimizzare la logistica.
L'esame è unico e si articola in due fasi non separabili:
- Fase (1) Agli studenti sarà somministrato un test a risposta multipla di 10 domande su MS Teams. Lo studente che risponderà correttamente ad almeno 6 domande passerà alla fase (2). Altrimenti, l'esame si concluderà con un'insufficienza e lo studente verrà rimandato al prossimo appello. Questo punteggio è chiamato A.
- Fase (2) Gli studenti sosterranno un breve test scritto in cui verrà richiesto di svolgere qualche esercizio. Alla fine di questa fase allo studente verrà assegnato un punteggio compreso tra 0 e 8, in base alla qualità delle risposte. Questo punteggio è chiamato B.
- Conclusione: il voto della parte di teoria è calcolato facendo A*3+ (B-4). Se tale voto è maggiore o uguale a 18 la parte di teoria risulta superata con quel voto. Altrimenti la prova risulterà insufficiente e lo studente sarà rimandato ai prossimi appelli. Le due fasi non possono essere separate e sostenute in appelli diversi. Costituiscono un'unica prova d'esame.
La verifica dell’apprendimento potrà essere effettuata anche per via telematica, qualora le condizioni lo dovessero richiedere.
La prova è strutturata in modo che ad ogni studente sia attribuito un voto secondo il seguente schema:
- Non approvato: lo studente non ha acquisito i concetti di base e non è in grado di rispondere ad almeno il 60% delle domande né di svolgere gli esercizi.
- 18-23: lo studente dimostra una padronanza minima dei concetti di base, le sue capacità di collegamento dei contenuti sono modeste, riesce a risolvere semplici esercizi.
- 24-27: lo studente dimostra una buona padronanza dei contenuti del corso, le sue capacità di collegamento dei contenuti sono buone, risolve gli esercizi con pochi errori.
- 28-30 e lode: lo studente ha acquisito tutti i contenuti del corso ed è in grado di padroneggiarli compiutamente e di collegarli con spirito critico; risolve gli esercizi in modo completo e senza errori.
Gli studenti con disabilità e/o DSA dovranno contattare con sufficiente anticipo rispetto alla data dell'esame il docente e il referente CInAP del DMI per comunicare che intendono sostenere l'esame fruendo delle opportune misure compensative.
Esempi di domande e/o esercizi frequenti
- Perché è preferibile parlare di volume “percepito”?
- Cosa sono le curve isofoniche? Come sono fatte?
- Cos’è il phon? Com’è legato ai decibel SPL?
- Qual è il volume percepito in phon di un suono a frequenza 1 KHz e ampiezza 200 dB SPL?
- Ha senso operare una compressione dei dati audio eliminando le frequenze tra 1 e 5 KHz a favore delle basse e delle alte? Motivare
- Cos’è il mascheramento frequenziale? Descrivere il fenomeno.
- Qual è la differenza con il mascheramento temporale? (non è necessario descrivere dettagliatamente il fenomeno del mascheramento temporale)
- Perché entrambi possono essere impiegati per comprimere un segnale audio?