Descrizione del modulo "Algoritmi Statistici orientati al grid computing per la genetica (INT.P02.004.001)"

Type
Label
  • Descrizione del modulo "Algoritmi Statistici orientati al grid computing per la genetica (INT.P02.004.001)" (literal)
Potenziale impiego per bisogni individuali e collettivi
  • Le ricerche oggetto della commessa soddisfano i seguenti bisogni collettivi di tipo generale: - Miglioramento della qualità della vita in termini di cure più mirate, efficaci e personalizzate, di una maggiore prevenzione e comprensione delle patologie, obiettivo realizzabile in sinergia con medici/biologi/genetisti grazie ad un'analisi dei dati sperimentali più accurata ed efficiente. - Formazione di figure di alta qualificazione professionale quali quella del bioinformatico e/o del biostatistico che possano coprire le continue richieste provenienti dal settore. Alla luce dell'espansione della bioinformatica nel mondo occidentale si prevede che tali professionalità possano trovare collocazione non solo nel settore della ricerca pubblica, ma anche, in futuro prossimo, in strutture sanitarie ed ospedaliere, laboratori e centri di sviluppo di moderne biotecnologie. (literal)
Tematiche di ricerca
  • Lo scopo principale della presente commessa è sviluppare metodi statistici e computazionali avanzati per la genetica, di sviluppare il relativo software e di applicare le metodologie proposte alla risoluzione di problemi reali in sinergia con biologi e genetisti operanti in laboratori italiani ed esteri. In una prima fase (2007-2009) l'attenzione e' stata posta nell'analisi di dati provenienti da esperimenti con microarrays, attualmente si sta procedendo allo sviluppo di metodi innovativi anche per le nuove tecnologie di next generation sequencing. I problemi inizialmente affrontati riguardano l'identificazione di geni differenzialmente espressi in esperimenti di serie temporali con microarrays, lo sviluppo di metodologie per il clustering sia di profili di espressione, l'individuazione di fattori di trascrizione in gruppi di geni coregolati. Per ognuno di questi quesiti biologici e' stata proposta una nuova metodologia statistica ed e' fornito il relativo software. Attualmente si stanno valutando le pipeline computazionali per i sequenziatori di nuova generazione ed in particolare per il SOLiD 3.0 disponibile presso l'IGB-CNR per il quale si coordina l'analisi dati. (literal)
Competenze
  • All'interno dell'IAC sono presenti competenze di tipo metodologico ed applicativo maturate attraverso diversi anni di esperienza in Statistica, Analisi Numerica, Informatica e più in generale nell'analisi di dati di esperimenti reali. Inoltre da vari anni i ricercatori coinvolti nel progetto lavorano in collaborazione con biologi e genetisti di laboratori italiani ed esteri. Infine, è stata recentemente attivata una convenzione operativa tra l'IAC ed il CRISCEB (Seconda Universita' degli studi di Napoli), che vede la partecipazione dei ricercatori afferenti a questa commessa alle attivita' di ricerca, didattiche e formative del Dottorato di Ricerca in Biologia Computazionale, con sede amministrativa presso la Seconda Universita' di Napoli. Tale convenzione si espleta attraverso la partecipazione del responsabile della commessa al collegio dei docenti e la disponibilita' della sede dell'IAC di Napoli ad ospitare dottorandi per stages/corsi o altre attivita' di ricerca. (literal)
Potenziale impiego per processi produttivi
  • Fruitori della ricerca a lungo termine sono individuabili tra le ditte produttrici di moderne biotecnologie e i laboratori di ricerca genetica che possono avere a disposizione e quindi produrre/utilizzare i modelli sviluppati e i relativi software, nonché possono proporre collaborazioni o assegnare incarichi di sviluppo di nuove metodologie su progetti specifici o tecnologie emergenti. (literal)
Tecnologie
  • Da un punto di vista strettamente statistico questa commessa comporta lo sviluppo di nuove metodologie per test statistici d'ipotesi, controllo della molteplicità dei confronti, modelli di analisi dati funzionali, modelli ad effetti misti, tecniche di clustering, metodi MCMC, selezione delle variabili e selezione dei modelli, etc. Uno degli strumenti di modellazione utilizzato sarà quello dell'inferenza Bayesiana che consente in modo naturale di coniugare le informazioni a priori che un biologo può fornire (informazioni reperibili anche da esperimenti precedentemente effettuati o da conoscenza pregressa di letteratura) con le informazioni contenute nell'esperimento che si vuole analizzare. Un nuovo settore di indagine che si prevede di iniziare nel 2009 riguarda l'analisi di dati di sequenziamento massivo(next generation sequencing). Questo prevede l'utilizzo di metodologie computazionali particolarmente efficienti per l'allineamento di sequenze. (literal)
Obiettivi
  • - Sviluppo di metodi e algoritmi statistici e computazionali avanzati per la genetica - Implementazione del relativo software in ambiente di calcolo di alto livello quali Matlab o R, molto diffusi nella comunità scientifica e loro sviluppo per architetture sequenziali, cluster di workstations e successivamente grid - Costruzione di interfacce user-friendly, integrando fruibilità da remoto e piattaforme differenti per facilitare l'accessibilità ad utenti non esperti - Applicazione delle metodologie proposte per la risoluzione di problemi reali in sinergia con biologi e genetisti operanti in laboratori italiani ed esteri - Messa a punto di pipeline computazionali per problemi particolarmente computer intensive (es. Analisi di dati di Next generation sequencing) - Diffusione dei risultati ottenuti attraverso pubblicazione su riviste, presentazioni a convegno, e rilascio di prototipi software - Formazione di figure con alta qualificazione in statistica applicata alla genetica (attraverso corsi, stages, dottorati) - Diffusione della cultura dell'approccio statistico in ambito biologico attraverso seminari e gruppi di lavoro interdisciplinari (literal)
Stato dell'arte
  • I moderni esperimenti di genetica rendono disponibili enormi quantità di dati, provenienti da piattaforme, protocolli o laboratori diversi, che tuttavia non sempre vengono analizzati con metodologie adeguate. L'integrazione di tali dati e la successiva analisi con metodologie specifiche può portare a scoperte scientifiche molto interessanti. Si osserva che sono richiesti strumenti di analisi più sofisticati ed accurati in modo da poter tenere conto sia dei vincoli strutturali imposti da ogni singolo esperimento sia della complessità dei fenomeni in esame in cui moltissime variabili sono coinvolte. Inoltre, la crescente risoluzione con cui è possibile misurare i diversi fenomeni impone ai metodi di analisi di manipolare grandi quantità di dati richiedendo un enorme costo computazionale. Questo porta ad una naturale richiesta sia di algoritmi efficienti che di strumenti hardware/software per poter eseguire un'analisi accurata in tempi brevi utilizzando cluster di workstations o grid computing. Il numero di supercalcolatori dedicati alla bioinformatica è in continuo aumento, occorre sviluppare le metodologie di analisi e creare professionalità adeguate ad utilizzarle. (literal)
Tecniche di indagine
  • La metodologia di indagine seguita parte dalla descrizione di un problema reale da parte di biologi e/o genetisti e prosegue con una fase di modellazione matematica. Si procede quindi ad una fase di simulazione al calcolatore per poi passare all'analisi del dato sperimentale reale. Ovviamente alla fine di ogni fase è previsto un feedback con biologi e genetisti ed un'eventuale modifica dei modelli considerati. Pertanto i metodi sviluppati saranno diretti sia all'analisi di dati sperimentali reali sia alla costruzione di modelli simulati che possono aiutare ad una migliore comprensione dei fenomeni in esame ed alla costruzione di modelli sempre più accurati nonché ad un supporto per una migliore pianificazione del design sperimentale riducendo i costi generali. (literal)
Descrizione di

Incoming links:


Descrizione
data.CNR.it