Descrizione del modulo "Trattamento Automatico del Linguaggio ed Estrazione di Conoscenza (IC.P02.002.004)"

Type
Label
  • Descrizione del modulo "Trattamento Automatico del Linguaggio ed Estrazione di Conoscenza (IC.P02.002.004)" (literal)
Potenziale impiego per bisogni individuali e collettivi
  • La possibilità di acquisire informazione in tempo reale, oltre a venire incontro ai diritti per un accesso equo ai servizi da parte del cittadino, ridurrebbe considerevolmente i tempi dei servizi stessi aumentandone contestualmente l'efficienza e le potenzialità. Ad esempio: - le tecnologie sviluppate per l'acquisizione semi-automatica di ontologie da testi possono essere utilizzate come supporto alla creazione e gestione di contenuti personalizzati, avvicinando così i cittadini alla conoscenza; - le tecnologie di valutazione della leggibilità di un testo e di supporto alla sua semplificazione sono in grado di ridurre la distanza tra i cittadini e le istituzioni. Nel contesto didattico e formativo, le tecnologie sviluppate possono costituire un valido aiuto nella personalizzazione dei contenuti educativi sulla base delle competenze linguistiche degli apprendenti (in particolare, studenti stranieri, oppure persone caratterizzate da un basso livello di alfabetizzazione o con lievi disagi cognitivi). (literal)
Tematiche di ricerca
  • Modelli e metodi - modelli probabilistici del linguaggio; - metodi e strumenti per l'analisi incrementale del testo; - architetture per il trattamento automatico del linguaggio (analisi e generazione); - metodi e strumenti per l'adattamento a domini specialistici di tecnologie linguistiche; - metodi e strumenti per l'acquisizione di conoscenza da testi (es. repertori terminologici, classi ontologiche, associazioni semantiche, schemi di selezione sintattica e concettuali); - metodi e strumenti per la ricostruzione del profilo linguistico di un testo. Tecnologie strumentali e prototipi applicativi per - l'estrazione di repertori terminologici e glossari di dominio; - lo sviluppo e la personalizzazione (semi)automatica di ontologie di dominio; - l'annotazione avanzata del contenuto testuale (ad es. identificazione di entità rilevanti per un dominio specifico e delle loro interazioni all'interno di eventi); - lo sviluppo e la personalizzazione di strumenti avanzati per filtrare il sovraccarico di informazione sulla base di parametri diversi, quali il genere testuale e/o l'accessibilità di un testo; - strumenti didattici avanzati a supporto dell'azione formativa dell'insegnante. (literal)
Competenze
  • Le attività del modulo si avvalgono di competenze specifiche maturate all'interno di progetti comunitari di ricerca e sviluppo (DALOS, VIKEF, BOOTSTREP, SPARKLE, POESIA, UNL, ed altri), in progetti nazionali (\"Migrazioni\", PEKITA, TAL, legge 488), così come nell'ambito di collaborazioni con ditte private. Tali competenze spaziano da modelli e tecniche per il trattamento automatico del linguaggio, a tecnologie di apprendimento automatico e per l'annotazione automatica robusta di vasti repertori testuali, fino alla creazione (semi)automatica di risorse lessico-semantiche. In particolare viene messa a disposizione l'esperienza nello sviluppo di sistemi \"ibridi\" per l'accesso intelligente a basi documentali annotate, basato sull'integrazione dinamica di compilatori di automi a stati finiti, tecniche stocastiche, utilizzo di indici entropici per l'apprendimento automatico e strutture ontologiche dedicate. La duplice natura dell'attività svolta, articolata in modelli teorici e realizzazione di prototipi applicativi, richiede una sinergia tra competenze e professionalità diverse, condivise tra linguistica, scienze cognitive, linguistica computazionale e conoscenze informatiche. (literal)
Potenziale impiego per processi produttivi
  • Le tecnologie sviluppate nell'ambito del modulo per quanto concerne l'accesso su base semantica al contenuto testuale hanno una immediata applicabilità alle necessità di ricerca e gestione \"intelligente\" dell'informazione contenuta all'interno di basi documentali in linguaggio naturale in continua evoluzione disponibili sul Web o su Intranet locali. La facilità di accesso a tali risorse e la capacità di estrarre l'informazione rilevante contenuta nei testi sono parametri chiave per garantire la competitività professionale, l'integrazione sociale e una più efficiente e trasparente condivisione e comunicazione delle conoscenze. Tra le tecnologie di base per l'acceso intelligente all'informazione testuale vale la pena menzionare strumenti per l'acquisizione di informazione semantico-concettuale da corpora testuali di dominio e per l'indicizzazione concettuale dei testi. Sul versante della didattica, la possibilità di disporre di tecnologie avanzate che permettano di monitorare la competenza linguistica di apprendenti e al contempo valutare l'adeguatezza dei materiali didattici a loro offerti rappresenta un valido di supporto all'insegnante nell'orientare la propria azione formativa. (literal)
Tecnologie
  • Modelli stocastici di fenomeni linguistici, risorse lessicali ad ampia copertura, grammatiche specializzate per dominio, genere testuale, registro linguistico e tipologia linguistica, strumenti di annotazione del testo. (literal)
Obiettivi
  • L'obiettivo generale del modulo è la creazione di un ciclo di analisi teorica, progettazione, sperimentazione e prototipazione per le principali applicazioni basate sul trattamento automatico del linguaggio. Le attività si ripartiscono in due filoni di ricerca finalizzati rispettivamente a 1) la definizione e la sperimentazione di metodologie, di strumenti e di tecniche avanzate per il TAL, e 2) la messa a punto di prototipi applicativi a supporto di attività didattiche e di ricerca così come di attività di carattere industriale, commerciale o servizi pubblici online. Sono riconducibili al primo filone le attività riguardanti la definizione e sperimentazione di metodi e strumenti per l'analisi incrementale del testo all'interno di architetture ibride e per l'acquisizione di conoscenza da testi, così come la definizione di modelli computazionali della variazione linguistica. Appartengono invece al secondo filone tutte le attività relative a tecnologie strumentali e prototipi applicativi per la ricerca e la gestione intelligente dell'informazione in basi documentali in continua evoluzione. (literal)
Stato dell'arte
  • La necessità quotidiana di accedere a grandi quantità di conoscenza digitale non strutturata all'interno di basi documentali di grandi dimensioni e in continua evoluzione ha dato impulso allo sviluppo di tecnologie per l'acquisizione e la gestione automatiche dell'informazione testuale. Nonostante i successi conseguiti negli ultimi anni in questa direzione, un reale salto tecnologico verso l'accesso avanzato all'informazione testuale richiede di affinare la capacità di accedere al contenuto codificato nella struttura linguistica di un testo dotando i sistemi di analisi dell'informazione di un'adeguata \"intelligenza linguistica\". A ciò si affianca l'esigenza di personalizzare questo contenuto, secondo prospettive soggettive condizionate dal contesto e dal punto di vista dell'utente. Le attività del modulo cercano di fornire risposte adeguate a queste due esigenze in linea con i più recenti risultati della ricerca in linguistica computazionale ricorrendo sia a tecnologie linguistiche consolidate di analisi del testo sia a strumenti per l'acquisizione dinamica di conoscenza di dominio e linguistica da corpora testuali basati sull'impiego di algoritmi di apprendimento automatico. (literal)
Tecniche di indagine
  • Metodologie robuste di annotazione linguistica multi-livello di testi reali, tecniche statistiche mono- e multi-variate per l'esplorazione di testi annotati, tecniche di validazione dell'annotazione, strumenti stocastici per lo sviluppo di modelli statistici del testo. Sul versante della strumentazione, calcolatori anche multi-processori con alte capacità prestazionali; ampia disponibilità di memoria di massa ad accesso rapido. (literal)
Descrizione di

Incoming links:


Descrizione
data.CNR.it