BIOINFORMATICA

Anno accademico 2025/2026 - Docente: ALFREDO PULVIRENTI

Risultati di apprendimento attesi

Di seguito sono elencati gli obiettivi formativi generali dell'insegnamento in termini di risultati di apprendimento attesi:

  1. Conoscenza e capacità di comprensione (knowledge and understanding): Il corso mira a formare le conoscenze e le competenze di base per l’analisi, la rappresentazione, e l’organizzazione di dati bioinformatici.
  2. Capacità di applicare conoscenza e comprensione (applying knowledge and understanding): lo studente acquisirà conoscenze riguardo ai modelli e gli algoritmi per l’analisi dei dati bioinformatici quali: allineamento e confronto di sequenze, analisi della struttura degli acidi nucleici e delle proteine, costruzione di workflow e riproducibilità delle analisi.
  3. Autonomia di giudizio (making judgements): Attraverso esempi concreti e casi di studio, lo studente sarà in grado di elaborare autonomamente soluzioni a determinati problemi legati all'analisi dei dati bioinformatici. In particolare, la parte finale del corso si concentrerà su casi di studio, che permetteranno di mettere in pratica le abilità apprese durante il corso.
  4. Abilità comunicative (communication skills): lo studente acquisirà le necessarie abilità comunicative e di appropriatezza espressiva nell'impiego del linguaggio tecnico nell'ambito generale dell'analisi dei dati bioinformatici.
  5. Capacità di apprendimento (learning skills): il corso si propone, come obiettivo, di fornire allo studente le necessarie metodologie teoriche e pratiche per poter affrontare e risolvere autonomamente nuove problematiche che dovessero sorgere durante una attività lavorativa. A tale scopo diversi argomenti saranno trattati a lezione coinvolgendo lo studente nella ricerca di possibili soluzioni a problemi reali, utilizzando benchmark disponibili in letteratura, e casi di studio.

Modalità di svolgimento dell'insegnamento

Qualora l'insegnamento venisse impartito in modalità mista o a distanza potranno essere introdotte le necessarie variazioni rispetto a quanto dichiarato in precedenza, al fine di rispettare il programma previsto e riportato nel syllabus.

Prerequisiti richiesti

  • Programmazione
  • Strutture dati

Frequenza lezioni

La frequenza a lezione è fortemente consigliata.

Per seguire meglio le lezioni, saranno messe a disposizione delle slide dal docente.

Si ricorda che le slide non costituiscono un mezzo di studio, ma forniscono un compendio per aiutare nell'apprendimento dei concetti illustrati a lezione. Lo studio dei materiali forniti dal docente, del libro di testo, e lo svolgimento degli esercizi è fondamentale per apprendere appieno i concetti illustrati durante le lezioni.


Contenuti del corso

 Introduzione e Fondamenti

  • Obiettivi del corso, struttura e modalità di valutazione.
  • Panoramica della bioinformatica: definizione, ambiti applicativi.
  • Tipologie di dati biologici non-omici: sequenze, strutture, interazioni.
  • Introduzione al programma e agli strumenti che saranno impiegati durante il corso.

Fondamenti di Probabilità, Statistica, Inferenza, Test Statistici

  • Concetti base di probabilità
  • Distribuzioni di probabilità discrete e continue
  • Variabili casuali e indipendenza statistica
  • Teorema di Bayes con applicazioni bioinformatiche
  • Statistica descrittiva per dati biologici
  • Test di ipotesi e p-value, errori di tipo I e II.
  • Test statistici comuni (t-test, chi-quadro, ANOVA)
  • Modelli di regressione e correlazione
  • Visualizzazione: istogrammi, boxplot.
  • Concetto di significatività statistica vs. biologica.
  • Esempi applicativi con dati biologici.

Introduzione a R per l’Analisi Bioinformatica

  • Strutture dati: vettori, data frame, liste.
  • Funzione di base
  • Uso dei pacchetti tidyverse.
  • Pacchetti bioinformatici in R (Bioconductor)
  • Analisi statistica in R
  • Creazione di grafici in R istogrammi, scatterplot, boxplot, heatmap.
  • Breve introduzione a ggplot2.

Introduzione a Python e Biopython

  • Fondamenti bi Biopython
  • Manipolazione di sequenze e accesso ai database biologici
  • Trascrizione e traduzione di sequenze.
  • Calcolo GC-content, reverse complement.
  • Parsing di annotazioni e feature biologiche.

Confronto e Analisi di Sequenze

  • Formati di file per sequenze (FASTA, FASTQ, GenBank)
  • Proprietà delle sequenze nucleotidiche e proteiche
  • Banche dati biologiche
  • Importazione e manipolazione di sequenze

Allineamento di sequenze I

  • Concetti base di similarità tra sequenze: similarità, identità, e omologia.
  • Allineamento locale vs globale.
  • Algoritmi di allineamento globale (Needleman-Wunsch)
  • Matrici di sostituzione (PAM, BLOSUM)
  • Valutazione degli allineamenti

Allineamento di sequenze II

  • Algoritmi di allineamento locale (Smith-Waterman)
  • Allineamento multiplo di sequenze
  • Programmi per l'allineamento (BLAST, CLUSTAL)
  • Esercizi pratici di allineamento in Python e R.
  • Interpretazione di MSA e costruzione di profili.

Ricerca di pattern nelle sequenze

  • Ricerca esatta e approssimata di pattern
  • Algoritmi per la ricerca di pattern (Boyer-Moore, Knuth-Morris-Pratt)
  • Hidden Markov Models (HMM) per sequenze
  • Applicazioni nella bioinformatica

Filogenesi molecolare I

  • Concetti base di evoluzione molecolare
  • Costruzione di alberi filogenetici
  • Metodi di distanza e metodi di massima parsimonia
  • Software per l'analisi filogenetica

Filogenesi molecolare II

  • Massima verosimiglianza in filogenesi
  • Inferenza bayesiana
  • Interpretazione dei risultati filogenetici
  • Applicazioni della filogenesi in bioinformatica

Testi di riferimento

Si consiglia l'uso del testo "Fondamenti di bioinformatica".

Autori: Manuela Helmer Citterich, Fabrizio Ferrè, Giulio Pavesi, Graziano Pesole, Chiara Romualdi.

Editore: Zanichelli (2018).

Altri testi consigliati:

·       “Bioinformatics”
Autori: Andreas D. Baxevanis, Gary D. Bader, David S. Wishart
Editore: Wiley (2020)

·       “R Bioinformatics Cookbook: Utilize R packages for bioinformatics, genomics, data science, and machine learning”
Autori: Dan MacLean
Editore: Packt Publishing (2023)

·       “Mastering Python for Bioinformatics: How to Write Flexible, Documented, Tested Python Code for Research Computing”
Autori: Ken Youens-Clark
Editore O'Reilly Media (2021)

·       “Bioinformatica: Dalla sequenza alla struttura delle proteine”
Autori: Stefano Pascarella, Alessandro Paiardini
Editore: Zanichelli (2011)

Altre risorse aggiornate saranno indicate dal docente nelle slides utilizzate a lezione.

Programmazione del corso

 ArgomentiRiferimenti testi
1Introduzione alla bioinformaticaFondamenti di bioinformatica
2Fondamenti di Probabilità, Statistica, Inferenza, Test StatisticiFondamenti di bioinformatica
3Introduzione a R per l’Analisi BioinformaticaR Bioinformatics Cookbook
4Introduzione a Python e BiopythonMastering Python for Bioinformatics
5Rappresentazione di sequenze biologicheFondamenti di bioinformatica
6Allineamento di sequenze IFondamenti di bioinformatica
7Allineamento di sequenze IIFondamenti di bioinformatica
8Ricerca di pattern nelle sequenzeFondamenti di bioinformatica
9Filogenesi molecolare IFondamenti di bioinformatica
10Filogenesi molecolare IFondamenti di bioinformatica

Verifica dell'apprendimento

Modalità di verifica dell'apprendimento

L'esame finale consiste in una prova scritta e un colloquio orale nel quale sarà discusso un progetto concordato tra il docente e lo studente.

La prova scritta e il colloquio orale avranno una valutazione in trentesimi e la valutazione finale sarà ottenuta come media pesata tra valutazione della prova scritta (peso: 25% del voto finale) e valutazione della prova orale (peso: 75% del voto finale).

La prova scritta è costituita da una domanda di teoria su argomenti del corso che lo studente dovrà argomentare per mostrare un'ampia comprensione della materia.

Il voto minimo per superare la prova scritta è 18/30. Chi non supera la prova scritta, non potrà sostenere l'orale. La prova scritta può essere visionata insieme al docente in qualunque momento.

Il voto minimo per considerare superato l'esame finale è di 18/30.

Il progetto dovrà essere completato entro 1 mese dal superamento della prova scritta. Il progetto potrà essere concordato con il docente in qualunque momento. In caso di rifiuto del voto scritto, la valutazione del progetto sarà conservata per tutto l'anno accademico. In caso di rifiuto del voto finale lo studente dovrà sostenere nuovamente tutta la prova (scritto e progetto).

Gli orari e i luoghi di svolgimento delle prove saranno comunicati mediante i mezzi previsti dall’ateneo.

Note:

  • È vietato l'uso di qualsiasi strumento hardware (calcolatrici, tablet, smartphone, cellulari, auricolari BT etc.), di libri o documenti personali durante l'esame scritto.
  • Per sostenere gli esami è obbligatorio prenotarsi utilizzando gli appositi strumenti previsti dall’ateneo.
  • Non sono ammesse prenotazioni tardive tramite email. In mancanza di prenotazione, l'esame non potrà essere verbalizzato.
  • La verifica dell’apprendimento potrà essere effettuata anche per via telematica, qualora le condizioni lo dovessero richiedere.
  • Gli studenti con disabilità e/o DSA dovranno contattare con sufficiente anticipo il docente, il referente CInAP del DMI (prof.ssa Daniele) e il CInAP per fruire delle opportune misure compensative

Esempi di domande e/o esercizi frequenti

Esempi di domande per l'esame scritto saranno illustrati a lezione.

-Descrivere la relazione tra automi a stato finito e allineamento di sequenze. Descrivere l'algoritmo BLAST. Posterior Decoding negli HMM. Struttura dell'RNA, predizione della struttura proteica. Docking. 

Si precisa che tali domande hanno carattere puramente indicativo: le domande proposte all'esame potranno divergere, anche in modo significativo

ENGLISH VERSION