http://www.cnr.it/ontology/cnr/individuo/prodotto/ID178386
Social Database for Biodiversity (Banca dati)
- Type
- Label
- Social Database for Biodiversity (Banca dati) (literal)
- Anno
- 2010-01-01T00:00:00+01:00 (literal)
- Alternative label
- Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#autori
- Pannarale P; Scioscia G; Rubino F; Leo P; Pappadà G; D'Elia D; Grillo G; Vicario S; De Caro G; Gisel A; Mulè G; Susca A; Catalano D; Licciulli F (literal)
- Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#supporto
- Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#affiliazioni
- IBM Italia S.p.A, Sede di Bari, Via P.L. Laforgia 14, 70125 Bari, Italy
Exhicon I.C.T. S.r.l., Bari, Via avv. V. Malcangi 254, 70059 Trani, Italy
Istituto di Tecnologie Biomediche (ITB) - CNR, Via Amendola 122/D, Bari, Italy
Istituto di Scienze delle Produzioni Alimentari (ISPA), Via Amendola 122/D, Bari, Italy
Istituto di Genetica Vegetale (IGV), Via Amendola 165/A, Bari, Italy (literal)
- Titolo
- Social Database for Biodiversity (literal)
- Descrizione sintetica
- Un aspetto di complessità dei sistemi che considerano informazioni riguardanti la biodiversità è quella di dovere trattare dati provenienti da ambiti molto diversi che spaziano dalla biologia alla geografia, da studi evoluzionistici alla genomica, dalla tassonomia alle scienze ambientali, e questa lista non è tra l'altro esaustiva. Questa difficoltà è maggiormente accentuata quando si affrontano problemi di carattere industriale la cui soluzione dipende dalla consultazione di informazioni di biodiversità. Abbiamo in questo caso sia problemi dimensionali sia problemi di combinare ed integrare informazioni che risiedono in sistemi e banche dati specializzate, pubbliche e private.
Uno degli stream di ricerca di maggiore criticità che ha affrontato MBlab è stato quello di progettare, disegnare e implementare una sorgente informativa condivisa ed integrata avente l'obiettivo di aggregare e correlare diversi \"pezzi\" di informazioni e conoscenze, provenienti dai vari domini, e quindi utile per studi e generazione di nuove conoscenze sulla biodiversità. La sua progettazione ha permesso l'integrazione di informazioni provenienti da banche dati pubbliche (GenBank, Specie 2000, ecc) e da sorgenti informative private, al fine di fornire una nuova fonte di informazioni che risolva questioni come l'eterogeneità dei dati, la frammentazione, la dislocazione delle informazioni, ecc. Per la realizzazione della banca dati integrata è stato seguito un nuovo paradigma di integrazione dati nell'ambito della Biodiversità ispiratosi sia alla nuova tendenza ampiamente diffusa nella rete di condividere le informazioni attraverso l'aggregazione di persone con gli stessi interessi (social network), sia da un nuovo tipo di architettura di database definito come Database Distribuito Federato Dinamico realizzato da un gruppo di ricerca IBM e denominato GaianDB, che permette di realizzate una rete federata di database la cui crescita è regolata da principi ispirati alla biologia e da metodi della teoria dei grafi.
Per attuare questo nuovo paradigma è stato utilizzato un approccio integrato di diversi componenti: un robusto Database Management System (IBM DBII) per gestire il database pubblico di sequenze nucleotidiche GenBank, una serie di nodi GaianDB per la gestione remota di collezioni/database privati di dati sulla biodiversità, il Federator Server IBM per implementare lo schema concettuale generale che integra tutte le banca dati sulla biodiversità a disposizione.
Mediante questa architettura basata su una rete di GaianDB i dati rimangono sul server remoto del gruppo di ricerca ed ogni proprietario del database è responsabile della loro efficacia, della disponibilità e della condivisione. Inoltre un ricercatore potrebbe inserire i risultati dei propri esperimenti ed annotazioni/commenti a dati non di sua proprietà ma presenti nel sistema. In questo modo le informazioni rimangono sparse, ma la conoscenza diventa condivisa. Per questo motivo il sistema è stato denominato Social Molecular Biodiversity Database.
Il database è basato su uno schema concettuale progettato in modo da integrare i diversi dati sulla biodiversità molecolare disponibili nel Laboratorio. Lo schema contiene sei aree tematiche principali: Dati di Individuo, Tassonomia, Dati di Collezione, Dati Sperimentali, Dati Molecolari e Dati di Filiera. Alcune aree sono state progettate rispettando standard a livello internazionale come Chado e Sequence Ontology (per la sezione molecolare), BOLD (Barcode Of Life), etc. Al momento due collezioni private di dati sulla biodiversità sono state implementate nella rete GaianDB: ITEMCollection, una collezione di funghi tossigeni di interesse agro-alimentare; IGV collezione di piante mediterranee. Nella zona tassonomica sono state integrare la NCBI Taxonomy e il database Catalogue Of Life.
Infine il Social Molecular Biodiversity Database fornisce un punto unitario di accesso per una serie di applicazioni bioinformatiche o informatiche specializzate e algoritmi di analisi per lo studio della biodiversità. (literal)
- Abstract
- Motivation
Biodiversity research concerns with data coming from many different domains (e.g., Biology, Geography, Evolutionary Studies, Genomics, Taxonomy, Environmental Sciences, etc.) which need to be integrated for leading to valuable Biodiversity knowledge. Collecting and integrating data from so many heterogeneous resources is not a trivial task. Data are extremely scattered, heterogeneous in format and purpose, and protected in repositories of several research institutes. Driven by the widely diffused trend of the web of sharing information through aggregation of people with the same interests (social networks), and by the new type of database architecture defined as dynamic distributed federated database, we are proposing a new paradigm of data integration in the Biodiversity domain. Here we present a new approach for the development of a Knowledge Base aiming to the collection, integration and analysis of biodiversity data implemented as a product of the MBLab project.
Methods
The implementation of the Biodiversity Knowledge Base is based on the integration of several components: a robust Database Management System (IBM DB2) managing the large volume of information from public databases like GenBank, a set of GaianDB nodes [1] to manage remote private collections of biodiversity data; the IBM Federator Server to implement the general conceptual schema integrating all biodiversity databases available across remote nodes of MBLab project partners.
Results
GaianDB is a Dynamic Distributed Federated Database of sources whose growth is regulated by biologically inspired principles and graph theoretic methods. By means of the GaianDB network architecture data remains on the remote research group servers, and each database owner is responsible for its integrity, availability and sharing. Each vertex of this network is a suitable entry point receiving the user query and responding with an output aggregating different pieces of information retrieved from the different data sources spanned all over the network. To integrate GenBank molecular data in the MBLabDB we built an efficient and reliable ETL (Extraction, Transformation and Load) module, implemented with CLIPS Rule Based Programming Language. The ETL extracts information from the featurebased GenBank entries and fits them in the MBLabDB schema. Molecular data collections are structured following a Chado-like model [2], using Sequence Ontology entities and relations. This allows to retrieve data using the biological concepts expressed by the Sequence Ontology [3]. The main result of this work is the development of a standard conceptual schema and a knowledge base architecture tailored to biodiversity data collection, integration and analysis. The database is modeled on six main sections: Taxonomic, Individual, Collection, Supply chain, Experimental molecular data. Currently two biodiversity data collections have been integrated by using GaianDB: the ITEM Collection [4] located at the ISPA-CNR server, and the IGV Mediterranean Plant collection [5] located at the IGV-CNR server. As for Taxonomic area both the NCBI Taxonomy [6] and the Catalogue of Life [7] taxonomic classifications have been included. Using this new paradigm of data integration, biodiversity research groups can contribute to the information network by sharing their data sources with a reasonable effort. In this network, named Social Database for Biodiversity, information remains scattered, but knowledge becomes shared. (literal)
- Prodotto di
- Autore CNR
- Insieme di parole chiave
Incoming links:
- Autore CNR di
- Prodotto
- Insieme di parole chiave di