Descrizione del modulo "Tecniche linguistico-semantiche per il supporto alla traduzione e alla consultazione di testi (IC.P02.013.001)"

Type
Label
  • Descrizione del modulo "Tecniche linguistico-semantiche per il supporto alla traduzione e alla consultazione di testi (IC.P02.013.001)" (literal)
Potenziale impiego per bisogni individuali e collettivi
  • Gli approcci e i sistemi orientati alla costruzione di ontologie e basi di conoscenza lessicale e, più in generale, all'ermeneutica computazionale, sono da considerarsi i più indicati per quanto riguarda le potenziali ricadute di carattere accademico. La comunità scientifica di riferimento, infatti, è principalmente costituita da studiosi e studenti interessati all'analisi di testi specifici: mediante le tecnologie sviluppate in seno al modulo è possibile creare le condizioni per valorizzare tali testi rendendone maggiormente esplicito il contenuto e, attraverso una sua strutturazione formale, navigare il testo percorrendo nuovi potenziali percorsi interpretativi. A tale scopo verranno utilizzate tecniche avanzate di visualizzazione dei dati che possono fornire agli studiosi metafore grafiche utili e talvolta indispensabili, alla formulazione di percorsi interpretativi che necessariamente si sviluppano su sistemi complessi, come risulta essere l'interpretazione di un testo. (literal)
Tematiche di ricerca
  • Il presente modulo intende occuparsi della ricerca di approcci innovativi linguistico computazionali e di ingegneria della conoscenza per il supporto alla consultazione, all'interpretazione e alla traduzione di testi. La ricerca si inquadra primariamente nell'ambito della conservazione e nella valorizzazione del patrimonio culturale, in quel settore delle \"digital humanities\" che si occupa del trattamento di testi. Più in dettaglio, è possibile collocare il lavoro di ricerca nell'ambito di alcuni settori ben definiti, che includono il trattamento automatico di lingue classiche, la traduzione automatica, la lessicografia computazionale, l'ingegneria della conoscenza e l'ingegneria del software. Gli approcci e le relative soluzioni tecnologiche sono sviluppate e sperimentate, per quanto concerne il settore della traduzione, nell'ambito del Progetto Traduzione del Talmud Babilonese, di cui è coordinatore scientifico il dott. Andrea Bozzi, mentre, per quanto riguarda la consultazione e l'interpretazione di testi, nel contesto del progetto Clavius on the Web, volto alla valorizzazione di documenti posseduti dall'Archivio Storico della Pontificia Università Gregoriana di Roma. (literal)
Competenze
  • Le competenze richieste per lo svolgimento delle attività del modulo sono molteplici e di varia natura. I partecipanti alle attività hanno acquisito, sia nell'ambito di attività di ricerca, che all'interno di progetti di natura industriale, conoscenze avanzate nei seguenti settori: linguistica generale, lingue classiche e semitiche, trattamento automatico della lingua (TAL), traduzione automatica, linguaggi e sistemi per la rappresentazione della conoscenza, estrazione di informazione da testi, lessicografia computazionale, sistemi di marcatura standard del testo (XML-TEI) per la rappresentazione strutturata delle fonti digitali, ingegneria del software (in particolare, processi per la progettazione e lo sviluppo \"agile\" di componenti software, attraverso l'utilizzo di pattern e, laddove se ne verificasse la necessità, definendone e formalizzandone di nuovi). Per quanto riguarda le tecnologie informatiche, il gruppo si avvale di esperienza ultradecennale in tutti i principali linguaggi di programmazione e di scripting, nella gestione di sistemi e reti e di conoscenza avanzata delle principali tecnologie per il Web semantico e il reasoning (tra cui RDF, OWL, SKOS, SPARQL). (literal)
Potenziale impiego per processi produttivi
  • La forte vocazione applicativa del modulo ben si presta alla collocazione dei risultati ottenuti dalle attività di ricerca e sviluppo all'interno di processi produttivi. Le applicazioni legate ai processi di supporto alla traduzione sono quelle che, potenzialmente, possono soddisfare un bacino di utenza più ricco, anche di tipo industriale. Di fatto, le metodologie per il supporto alla traduzione di testi sviluppate all'interno del modulo possono essere considerate, in gran parte, indipendenti dalla lingua e dal dominio trattato nel testo, consentendo il rapido adattamento di applicazioni già sviluppate per lingue e in contesti diversi da quelli eventualmente richiesti. Parimenti, i modelli e le tecniche sviluppate per l'estrazione e la strutturazione di elementi semantico-lessicali da testi sono concepiti per essere, in larga parte, indipendenti dal dominio. (literal)
Tecnologie
  • L'adozione di tecnologie allo stato dell'arte è trasversale alle tematiche di ricerca affrontate. In particolare, all'interno delle attività del modulo si intende fare uso di tecnologie per: i) lo sviluppo di applicazioni Web collaborative, ii) la creazione e l'uso di lessici computazionali e di ontologie, iii) l'indicizzazione di elementi testuali per il Web of Data. Si fornisce di seguito un elenco delle principali tecnologie adottate: - linguaggi di programmazione e di scripting finalizzati allo sviluppo Web (Java, Javascript, HTML, CSS, Python) - tecnologie Java Enterprise Edition, tra cui JSF, CDI, Primefaces - Application server Tomcat - RDF(S), OWL, lemon - CITE/CTS - tecnologie XML, tra cui Xpath, Xquery, Xlink, Xpointer, XSLT - MySQL (literal)
Obiettivi
  • La prima macro-area di intervento è il supporto all'interpretazione e si articola in due fasi: annotazione e fruizione. L'annotazione interessa diversi livelli del testo, principalmente il livello linguistico e quello semantico-lessicale. La fase di fruizione ha origine sia dall'indicizzazione dei vari elementi di annotazione introdotti in precedenza, che dalla strutturazione dei vari oggetti semantici riferiti nel testo attraverso lessici computazionali e ontologie. Una integrazione ragionata delle varie risorse prodotte permette di andare oltre le semplici tecniche di consultazione dei testi offrendo allo studioso possibilità di formulare e verificare nuove ipotesi interpretative, secondo approcci riconducibili al settore, ancora poco esplorato, dell'ermeneutica computazionale. La seconda macro-area riguarda la traduzione di testi. Per quanto riguarda i sistemi di CAT, si intende integrare tecniche esistenti (tra cui l'uso di memorie di traduzione) agli strumenti di TAL. Più in prospettiva, si cercherà di sfruttare, come ulteriore elemento di supporto alla traduzione, le risorse semantiche già utilizzate nell'ambito dell'ermeneutica. (literal)
Stato dell'arte
  • Il proliferare di progetti, risorse, collaborazioni e pubblicazioni che hanno come oggetto il trattamento e la gestione computazionale del patrimonio culturale denota un sempre maggiore interesse per le cosiddette \"digital humanities\". Il trattamento di testi, soprattutto se considerati di particolare valore culturale, è da molti anni oggetto di studio. Mentre da un lato fioriscono in tutto il mondo database centralizzati per la raccolta e la condivisione di testi letterari, non si registra ancora un'adeguata loro valorizzazione e diffusione nel contesto del Web semantico, nonostante siano ormai mature e consolidate le tecnologie per la condivisione di dati sulla rete (Linked Data). Ciò che manca alla comunità scientifica di riferimento sono, principalmente, gli strumenti computazionali atti a rendere maggiormente fruibili e, parallelamente, più agevolmente traducibili in altre lingue, i testi ad oggi già digitalmente trascritti. Nell'ambito delle attività del modulo si intende perciò fornire modelli e tecniche per la consultazione intelligente di testi e la loro traduzione, sia integrando e applicando l'esistente, sia proponendo approcci innovativi. (literal)
Tecniche di indagine
  • Per quanto riguarda gli aspetti legati all'interpretazione di testi, le tecniche di indagine utilizzate mirano alla strutturazione delle entità e delle relazioni presenti nei testi mediante modelli per la costruzione di lessici e ontologie, entrambi strettamente legati ai testi, e concepiti per consentire allo studioso di formulare e verificare ipotesi interpretative. Per arrivare a tale risultato sono prerequisiti: i) tecniche di trattamento della lingua, mediante le quali è possibile riconoscere nel testo i descrittori linguistici dei lessemi di interesse e delle entità e relazioni di dominio e ii) tecniche per l'apprendimento automatico di ontologie, per rendere, almeno in parte, automatico, il processo di strutturazione formale dei concetti e delle relazioni individuate. Nel settore della traduzione è possibile applicare la gran parte delle tecniche di indagine adottate per la consultazione di testi. In particolare, si prevede di fornire un importante contributo scientifico nell'ambito dell'applicazione di tecniche di trattamento automatico della lingua ai sistemi di supporto alla traduzione, conosciuti come sistemi di CAT (Computer Assisted Translation). (literal)
Descrizione di

Incoming links:


Descrizione
data.CNR.it