http://www.cnr.it/ontology/cnr/individuo/descrizionecommessa-descrizionecommessa/ID1442
Descrizione della commessa "Risorse e Tecnologie Linguistiche: standardizzazione, sviluppo, infrastrutture, strategie (IC.P02.005)"
- Type
- Label
- Descrizione della commessa "Risorse e Tecnologie Linguistiche: standardizzazione, sviluppo, infrastrutture, strategie (IC.P02.005)" (literal)
- Potenziale impiego per bisogni individuali e collettivi
- Le tecnologie linguistiche possono semplificare e automatizzare i processi di traduzione, produzione di contenuto e gestione della conoscenza. Possono anche arricchire interfacce intuitive a base vocale per elettrodomestici, macchinari, veicoli, computer e robot. Si prestano ad essere utilizzate per la realizzazione di strumenti didattici e riabilitativi, la creazione di dizionari, lo sviluppo di sistemi di ricerca documentale.
Un'infrastruttura condivisa di risorse e strumenti può essere una tecnologia abilitante per applicazioni con ampie ricadute sociali, in chiave multilingue e multiculturale: può aiutare ad affrontare il problema del multilinguismo in Europa e può essere viste come tecnologia \"assistiva\" che aiuta a superare le barriere linguistiche.
D'altra parte, le risorse linguistiche contribuiscono alla promozione, alla preservazione e allo studio della lingua e cultura italiana in rete. Infine, le tecnologie linguistiche sono usate in applicazioni per operazioni di soccorso in aree colpite da emergenze e per interventi di prevenzione ambientale e sanitaria. (literal)
- Tematiche di ricerca
- Approcci innovativi per la modellazione e creazione di corpora e di risorse lessicali, terminologie e ontologie. Nuove modalità di acquisizione ed annotazione di risorse, come workflow di servizi web.
studio di nuovi metodi di sviluppo collaborativo e di condivisione di strumenti e risorse linguistiche.
Astrazione di modelli formali del linguaggio da usarsi in applicazioni TAL. Costruzione di ontologie per lo sviluppo di modelli linguistici.
Sviluppo di risorse e strumenti a supporto dell'elaborazione del linguaggio naturale in compiti di interazione uomo-macchina, opinion mining, e per l'analisi del linguaggio dei social media.
Uso di risorse e tecnologie linguistiche in sistemi di accesso intelligente al contenuto semantico.
Definizione, promozione, e valutazione di standard e di metadati linguistici; pubblicazione di e accesso a risorse come \"dati aperti\".
Sensibilizzazione della comunità scientifica ed industriale per il rilancio del settore e la definizione di una agenda strategica. Organizzazione di eventi scientifici.
Valorizzazione del ruolo infrastrutturale delle risorse come tecnologia abilitante per il settore dei Beni Culturali e delle Scienze Umane e sociali. (literal)
- Competenze
- Fra le principali competenze necessarie allo svolgimento delle attività della commessa citiamo:
linguistica computazionale, rappresentazione della conoscenza e ontologie; logica; lessicologia e lessicografia computazionali; metodi e protocolli per la creazione di risorse lessicali; sviluppo di servizi web per l'accesso a risorse digitali generiche e di dominio; metodi di annotazione dell'informazione linguistica; tecniche simboliche e statistiche per l'estrazione d'informazione lessicale da testi; metodi e linguaggi di rappresentazione del contenuto linguistico, in particolare linguaggi orientati al Semantic Web; metodologie, procedure e protocolli di standardizzazione; tecnologie XML (DTD, RelaxNG, W3C schema; RDF/OWL); tecnologie web (Java Servlet, JSP, JSF2, Icefaces2); competenze informatiche di linguaggi di programmazione, software Open Source, database relazionali. (literal)
- Potenziale impiego per processi produttivi
- Le Risorse Linguistiche sono un componente essenziale di ogni tecnologia linguistica e rivestono un ruolo importante in molti processi produttivi. Hanno ricadute industriali in quanto usate in qualsiasi sistema applicativo di TAL: tecnologie per l'accesso intelligente all'informazione testuale in applicazioni finali quali Smart Agents, Summarization, On-line Documentation rappresentano tecnologie di punta. L'adozione di modelli armonizzati e standard internazionali massimizza gli sforzi e promuove lo sviluppo di tecnologie interoperabili più innovative e competitive.
Un'infrastruttura integrata di risorse e strumenti linguistici consente di dotare il nostro Paese delle tecnologie che permettano la fruizione e la condivisione dell'enorme patrimonio culturale.
Rende inoltre possibile a gruppi di ricerca e a gruppi industriali il perseguimento di specifici sviluppi applicativi su un insieme robusto, consolidato e modulare di tecnologie 'di base', fruibili in rete, che possono essere adattate e integrate in diversi sistemi. La disponibilità di risorse e tecnologie della lingua per studiosi dei settori umanistici e delle scienze sociali, consente di superare la attuale frammentazione. (literal)
- Tecnologie
- La commessa fa uso delle seguenti tecnologie:
- tecnologie di modellazione oggetti (UML, RelaxNG);
- linguaggi di rappresentazione e markup dati (DTD, XML, RDF Schema, RDF/OWL);
- database relazionali;
- tecnologie per la gestione di workflow documentali,
- linguaggi e strumenti di rappresentazione ontologica;
- linguaggi informatici di programmazione (Java, C, C++, C# e Perl ...)
- tecnologie Web (Java Servlet, JSP, JSF2, Icefaces2)
- web services e tecnologie per la sicurezza nei web services Axis2 e Axis1 (WSS4J e Rampart)
- tecnologie open source per analisi dati
- tagger, parser e annotatori da combinarsi in una piattaforma integrata. (literal)
- Obiettivi
- Gli obiettivi principali della commessa comprendono più aspetti: da una parte, l'accento è sul ciclo vitale delle risorse linguistiche, dai modelli e tecnologie per la creazione, rappresentazione, estensione e mantenimento di risorse linguistiche, allo sviluppo di sistemi e nuove modalità per la loro acquisizione ed annotazione, fino all'uso, testing e valutazione in contesti applicativi di eHealth, Environment, etc; dall'altra, le attività sono rivolte alla creazione di CLARIN-IT, un'infrastruttura italiana affiliata all'infrastruttura Europea CLARIN, per consentire alle comunità di ricerca nel settore delle scienze umane e sociali di trasformare la vasta collezione di risorse e infrastrutture locali esistenti o in-fieri attualmente scollegate in un'unica infrastruttura di ricerca nazionale, integrandola al contempo a livello Europeo. Il disegno di un'architettura di risorse e tecnologie linguistiche contribuirà a formare una rete di eccellenza italiana con massa critica adeguata per partecipare a analoghe iniziative internazionali. (literal)
- Stato dell'arte
- Risorse, Tecnologie Linguistiche e Standard sono temi prioritari riconosciuti dalla comunità internazionale, come testimoniato dal fiorire di attività, iniziative, progetti e eventi relativi al settore. Le tecniche di TAL sono sufficientemente mature per poter concordare standard internazionali per le RL. Le tecnologie linguistiche sono inoltre sempre più robuste, tanto da poter essere integrate in applicazioni che danno luogo a prodotti e servizi. Si prevede in futuro un'espansione del settore dovuta al riconoscimento dell'utilità di usare tecnologie linguistiche in diversi ambiti applicativi, ovunque si debba trattare con grandi basi documentali.
L'approccio infrastrutturale è in linea con gli obiettivi di Horizon2020 per promuovere il settore, favorire sinergie fra diversi attori, individuare aree di sviluppo a alto impatto tecnologico, con marcate ricadute economiche, sociali, e culturali. La sperimentazione di nuove architetture porterà alla creazione di un gruppo di esperti, che già collaborano con colleghi europei e internazionali, nell'ottica di un complessivo rafforzamento del ruolo dell'Italia come leader europeo del settore. (literal)
- Tecniche di indagine
- Modelli linguistici teorici per l'analisi del linguaggio naturale.
Tecniche simboliche di analisi del linguaggio naturale, in particolare automi a stati finiti, grammatiche e lessici computazionali per l'annotazione automatica di corpora.
Tecniche statistico-quantitative supervisionate e non supervisionate per l' analisi del linguaggio naturale, in particolare misure di cooccorrenza statistica per l'estrazione di lessico e informazioni salienti da testo, modelli probabilistici per l'annotazione di automatica di corpora.
Metodi di estrazione di dati da web (web-crawling) per l'ottenimento di grandi quantità di dati ai fini dell'estrazione automatica di informazioni linguistiche.
Crowdsourcing linguistico per la raccolta di dati e metadati linguistici e lessicografici.
Piattaforme informatiche per la gestione di grandi reopositories di dati e metadati linguistici.
Valutazione della governance adattiva dei processi di monitoraggio/conservazione, conoscenza e valorizzazione/fruizione delle risorse linguistiche.
Sviluppo di prototipi applicativi per la condivisione e interazione di strumenti e risorse linguistiche distribuite. (literal)
- Descrizione di
Incoming links:
- Descrizione