http://www.cnr.it/ontology/cnr/individuo/descrizionemodulo-descrizionemodulo/ID2074
Descrizione del modulo "Risorse e Tecnologie Linguistiche: modelli, metodi di sviluppo, applicazioni, disegno di strategie internazionali (IC.P02.005.001)"
- Type
- Label
- Descrizione del modulo "Risorse e Tecnologie Linguistiche: modelli, metodi di sviluppo, applicazioni, disegno di strategie internazionali (IC.P02.005.001)" (literal)
- Potenziale impiego per bisogni individuali e collettivi
- Le tecnologie linguistiche possono semplificare e automatizzare i processi di traduzione, produzione di contenuto e gestione della conoscenza. Possono anche arricchire interfacce intuitive a base vocale per elettrodomestici, macchinari, veicoli, computer e robot. Le risorse linguistiche si prestano ad essere utilizzate per la realizzazione di strumenti didattici e riabilitativi, la creazione di dizionari, lo sviluppo di sistemi di ricerca documentale.
Le tecnologie linguistiche possono inoltre aiutare ad affrontare il problema del multilinguismo in Europa e possono essere viste come tecnologia \"assistiva\" che aiuta a superare la \"disabilità\" rappresentata dalla diversità linguistica, rendendo le comunità linguistiche ancora più accessibili le une verso le altre.
D'altra parte, le risorse linguistiche contribuiscono alla promozione, alla preservazione e allo studio della lingua e cultura italiana in rete. Infine, un campo di ricerca attivo è l'uso delle tecnologie linguistiche per operazioni di soccorso in aree colpite da emergenze e per interventi di prevenzione ambientale e sanitaria: i robot parlanti del futuro hanno il potenziale di salvare vite umane. (literal)
- Tematiche di ricerca
- Ricerca teorica: approcci innovativi per la modellazione e creazione di corpora e di risorse lessicali, terminologie e ontologie. Ricerca sperimentale: nuove modalità di acquisizione ed annotazione di risorse, come workflow di servizi web. Aspetti metodologici: astrazione di modelli formali del linguaggio da usarsi in applicazioni TAL. Ricerca applicata: sviluppo di risorse e strumenti a supporto dell'elaborazione del linguaggio naturale in compiti di interazione uomo-macchina, opinion mining, e per l'analisi del linguaggio dei social media. Ricerca industriale: uso di risorse e tecnologie linguistiche in sistemi di accesso intelligente al contenuto semantico. Costruzione di ontologie per lo sviluppo di modelli linguistici dell'azione per la robotica. Aspetti infrastrutturali: definizione, promozione, e valutazione di standard e di metadati linguistici; pubblicazione di e accesso a risorse come \"dati aperti\". Attività strategiche: sensibilizzazione della comunità scientifica ed industriale per il rilancio del settore e la definizione di una agenda strategica. Organizzazione di eventi scientifici. (literal)
- Competenze
- Fra le principali competenze necessarie allo svolgimento delle attività del modulo citiamo:
linguistica computazionale, rappresentazione della conoscenza e ontologie; logica; lessicologia e lessicografia computazionali; metodi e protocolli per la creazione di risorse lessicali; sviluppo di servizi web per l'accesso a risorse digitali generiche e di dominio; metodi di annotazione dell'informazione linguistica; tecniche simboliche e statistiche per l'estrazione d'informazione lessicale da testi; metodi e linguaggi di rappresentazione del contenuto linguistico, in particolare linguaggi orientati al Semantic Web; metodologie, procedure e protocolli di standardizzazione; tecnologie XML (DTD, RelaxNG, W3C schema; RDF/OWL); tecnologie web (Java Servlet, JSP, JSF2, Icefaces2); competenze informatiche di linguaggi di programmazione, software Open Source, database relazionali. (literal)
- Potenziale impiego per processi produttivi
- Le Risorse Linguistiche, componente essenziale di ogni tecnologia linguistica, sia per sviluppo di sistemi e applicazioni sia per la loro validazione, rivestono un ruolo importante in molti processi produttivi. Hanno ricadute industriali in quanto usate in qualsiasi sistema applicativo di TAL da parte di industrie, PP.AA., ecc. Sotto il profilo industriale, tecnologie per l'accesso intelligente all'informazione testuale in applicazioni finali quali Smart Agents, Summarization, On-line Documentation rappresentano tecnologie di punta. L'adozione di modelli armonizzati e standard internazionali nelle Risorse Linguistiche massimizza gli sforzi e promuove lo sviluppo di tecnologie interoperabili più innovative e competitive, favorendo il loro utilizzo in applicazioni, con risultati immediati e prodotti migliori. Gli standard garantiscono l'interoperabilità di risorse, aprono la strada a servizi efficienti in ambiente web, e alla personalizzazione di risorse in base alle necessità degli utenti. I lessici computazionali e i database terminologici sono utilizzati da case editrici, industrie di traduzione e localizzazione, PPAA ecc. (literal)
- Tecnologie
- Dato l'interesse per gli open data, anche nella loro versione linked, è stato deciso di pubblicare le risorse in accordo con i linguaggi di ultima generazione orientati al web semantico (XML, RDF/OWL). Tali linguaggi, da un lato permettono la formalizzazione del contenuto linguistico in ontologie che facilitano operazioni più complesse (inferenze), dall'altro ne garantiscono una maggiore fruizione da parte sia di esperti che di non esperti in ambito linguistico. Per facilitare la fruizione dei dati in formato linked open data da parte degli utenti sono state realizzate interfacce dedicate, facendo uso di tecnologie web come JQuery per le interfacce più leggere e Java Facelet per quelle più complesse. All'interno dell'attività di ricerca, legata ad aspetti infrastrutturali, le tecnologie linguistiche sono state sperimentate in combinazione con tecnologie GRID e web services. Il GRID è stato utilizzato a titolo sperimentale per la gestione di grandi moli di dati, mentre gli web services sono volti all'uso di tecniche composizione di servizi linguistici con metodi tipici di mash-up. Vengono utilizzati inoltre linguaggi informatici di programmazione come Java, C, C++, C# e Perl. (literal)
- Obiettivi
- Obiettivo primario è ottimizzare il ciclo di produzione delle risorse linguistiche, tecnologie abilitanti per migliorare la comprensione del linguaggio naturale da parte del computer. Da aspetti teorici, gli obiettivi di ricerca si spostano sul versante sperimentale, con l'uso delle risorse come banco di prova delle teorie linguistiche; toccano la sfera metodologica, con l'astrazione di language models. Indagini innovative vertono su nuovi paradigmi \"dinamici\" di acquisizione ed annotazione di risorse. Cruciale è la valutazione in prototipi industriali. Promettente settore è la costruzione di ontologie, trait-d'union tra linguistica, didattica e definizione di modelli linguistici per la robotica. Attenzione è data a soluzioni in processi di traduzione automatica, a supporto del multilinguismo e diversità linguistica, della promozione dell'italiano in rete e preservazione delle lingue minoritarie. Essenziale è l'adozione di standard per l'interoperabilità, metadati armonizzati, la pubblicazione e accesso ai \"dati aperti\" per garantire la fruizione di informazione in servizi nelle PP.AA. Centrale è la definizione di una agenda strategica per il rilancio del settore. (literal)
- Stato dell'arte
- Le basi di conoscenza, tra cui per esempio WordNet, sono utilizzate in approcci all'estrazione d'informazione. I domini aperti richiedono sempre più ricca conoscenza semantica costruita automaticamente. Sono allo stato dell'arte metodi e strumenti innovativi per l'acquisizione automatica di conoscenza lessicale da corpora, strutturati e non. La strada della comprensione linguistica è lunga, e oltre a parsing o analisi lessicale, richiede risorse e strumenti per il riconoscimento e la classificazione di categorie quali persone, luoghi, organizzazioni, la disambiguazione automatica del senso, l'annotazione di ruoli semantici. C'è carenza di grandi corpora annotati con ruoli semantici e sensi. C'è necessità di tecnologie per individuare coreferenza ed eventi temporali ed informazioni implicite, sia data-based che knowledge-based. Tali sistemi sono limitati ad un solo dominio e lingua con scarsa riusabilità e interoperabilità. La semantic web community si concentra su prodotti per modellare la \"conoscenza di dominio\". Gli attuali sistemi per il recupero dell'informazione risultano robusti ma con analisi superficiale, oppure di piccole dimensioni, con analisi profonde, ma ad hoc. (literal)
- Tecniche di indagine
- Le attività di ricerca si avvalgono di teorie innovative in linguistica, di metodologie basate su modelli linguistici teorici per l'analisi del linguaggio naturale e su tecniche simboliche di analisi.
Vengono utilizzati sistemi a regole basati su automi a stati finiti, grammatiche e lessici computazionali, e tecniche statistico-quantitative supervisionate e non, misure di co-occorrenza per l'estrazione di lessici e informazioni salienti da testo, modelli probabilistici per l'annotazione. Vengono usati metodi di web-crawling al fine di ottenere grandi quantità di dati da utilizzarsi in compiti di estrazione automatica di informazioni, nonché tecniche di crowdsourcing per la raccolta di dati e metadati linguistici. Per la gestione di tali depositi di dati e metadati si sono sviluppate piattaforme informatiche e prototipi applicativi per l'interazione di strumenti e risorse linguistiche distribuite. La creazione di un prototipo di piattaforma integrata di strumenti e risorse costituirà un ambiente sperimentale per dimostrare la validità di tali direzioni di ricerca. (literal)
- Descrizione di
Incoming links:
- Descrizione