Institute of computational linguistics \"Antonio Zampolli\" (ILC)

  • The Institute of Computational Linguistics (ILC) carries out research and development activities and promotes national and international strategies in the field of Natural Language Processing (NLP), paying particular attention – by developing linguistic technologies - to the processing and promotion of the Italian language, which is the bases of cultural identity in a multilingual context. The use of advanced linguistic technologies fosters also the growth of the industry of “contents”, a field offering many opportunities to a country such as Italy, a traditional producer of cultural industry. ILC researches could be grouped into the three large thematic fields which are quoted in the Institute founding act and corresponding to well-defined areas in Computational Linguistics (CL): • Computational methods and tools for humanistic research, regarding in particular linguistic, literary, philological disciplines and lexicography. • Models and methods for NLP and mono and multilingual applicative prototypes. • Design of standards and building of computational linguistic resources. ILC organizes its project activities within these three fields. ILC has played a crucial role in the origins and development of CL in Italy. In the past, we have managed to establish a kind of “virtuous” cycle – thus achieving, as one of our strategic objectives, a delicate balance between basic and applied and finalized research – and then succeeded in developing knowledge, methods and technologies often innovative with respect to the international state-of-the-art. The results obtained have produced highly competitive results on the ‘market’ of European, international and national research, allowing us to obtain consistent external funding and to transfer technologies to the industry, in particular to small/medium-size companies. Our Institute has always been involved in a large number of international activities including strategic design and programming, coordination of international activities, proposals for new paradigms in the field. These strategic activities, through which we have often led the international community towards goals that we considered of utmost importance, have allowed us to be regarded as one of the worldwide leading centres of excellence in the field. Many project activities bringing external funding exactly derive from these propositional and strategic activities. The ILC “historical” function of encouragement towards technological innovation has acknowledged us as Centre of Competence in the field of lexicography, philology and textual analysis in general. Particularly important are the activities aimed at favouring the synergies and integration among different approaches to NLP - through the integration of methodologies and tools - that has been fundamental for creating a global and winning vision with respect to fragmented positions. In Computational Linguistics, three main dimensions can be identified: 1. collection, formalization, acquisition and representation of data, descriptions, rules, basic tools, etc. that constitute the knowledge - both general and specific - for each language, according to which the computer can operate on natural languages; 2. the search for methods aimed at formulating models of language, considered essentially as a process for the analysis or production of generation of linguistic propositions; 3. applications aimed at supporting 1) industrial or commercial activities as well as social and economic services, as required by the development of the “Global Society”, 2) activities of disciplines dealing with different (in particular textual) aspects of languages. The design and planning of ILC activities take into account the internationally proven fact that it is essential – for the effectiveness and productiveness of research and development activities - that these aspects are considered not separately, but - from a scientific, managerial and organizational point of view - as a single and independent sector, separated from the disciplines contributing to its development or using its applications (computer science, communication and information technology, linguistics, philology and humanistic disciplines in general). ILC covers a prominent role in promoting NLP and defining and fostering a number of coordinated actions able to meet the needs of our country in the field: promotion of strategies and programs of national interest, proposal and coordination of EC and international initiatives and projects, connection and coordination between national and international communities, encouragement towards technological transfer to industry, proposal of independent university courses (master, doctorate, etc.). The well-established and well-acknowledged “leadership” of ILC - obtained also thanks to the steady care about integrating the different aspects of CL or NLP - is reflected in its capacity to: i. influence the important strategic choices of national and international agencies and bodies, ii. assume a directive role in the major international bodies in the field, iii. obtain substantial external (international and national financing in highly competitive contexts. We are involved in various activities of national and international cooperation with universities, public and private research Institutes, consortiums, industries, public authorities, etc. The following are just some of the international projects we participated to, often as coordinators: • European Projects: Current ones: IST DEMO-net: The e-Participation Network - Network of Excellence; IST BOOTStrep - Bootstrapping Of Ontologies and Terminologies STrategic REsearch Project; e-Content INTERA - Integrated European language data Repository Area; e-Content LIRICS - Linguistic Infrastructure for Interoperable Resources and Systems; IST VIKEF - Virtual Information and Knowledge Environment Framework - Integrated Project; Culture 2000 COMTOOCI - Computational Tools for the Librarian and Philological Work in Cultural Institution. Past ones: EUROTRA; ESPRIT Projects: Basic Research Action ACQUILEX-I (Coordinator) and II, IDEAL, MULTILEX; ET-7, ET-10/51; ET-10/63; ET-10/75; MLAP NERC (Coordinator); Eureka GENELEX and EUROLANG; Multilingual Corpora; LRE DELIS, ONOMASTICA, MULTEXT, RELATOR (Coordinator), CRISTAL, MEMORIA, RENOS, EAGLES-I (Coordinator), PAROLE (Coordinator), COLSIT, LS-GRAM; TELRI; ELAN; LE PAROLE (Coordinator), EAGLES-II (Coordinator); EuroWordNet-I, EuroWordNet-II, ELSE, SIMPLE (Coordinator), SPARKLE (Coordinator); EuroSearch; ACO*HUM Network; MATE; NITE; IST-HLT US-NSF ISLE- International Standards for Language Engineering (Coordinator); IST-HLT ENABLER Thematic Network (Coordinator); BAMBI – Better Access to Manuscripts and Browsing of Images; CHLT – Cultural Heritage Language Technologies; MLIS MUSI (Coordinator); IAP (Internet Action Plan) POESIA (Coordinator); As An Angel; ELSNET, ELSNET 2, ELSNET 3, ELSNET 4 IST Thematic Network – European Network of Excellence in Human Language Technologies; COMTOOCI – Computational Tools for the Librarian and Philological Work in Cultural Institution. • Initiatives and International Projects: Current ones: Japanese NEDO - Developing International Standards of Language Resources for Semantic Web Applications, International Joint Research Program of the New Energy and Industrial Technology Development Organization, ISO TC37/SC4/WG4 Committee (Coordinator); IRAQ \"Bagdad virtual museum\"; LCSTAR . Past ones: Text Encoding Initiative; Data Collection Initiative; Survey of Linguistic Resources for NLP; ESPRIT DARPA/NSF Co-operation on Lexical Databases (ECUS-04) (Coordinator); NSF XMELLT; United Nations Project UNL; MultiModal Annotation (MMA) Consortium; OLAC; SENSEVAL; WRITE - Written Resources Infrastructure, Technology and Evaluation (Coordinator); ELRA (European Language Resources Association). • National Projects: PEKITA Project; National Project “TAL - Infrastruttura nazionale per le risorse linguistiche nel settore del trattamento automatico della lingua naturale parlata e scritta” (Law n° 46/82 art. 10, with 13 private bodies) (Coordinator); FULL (Fuzzy Logic and Language); T2K; National Project “LCRMM - Linguistica Computazionale: ricerche monolingui e multilingui” (Cluster \"Linguistica\", Law n° 488, with 16 private and public bodies partners) (Coordinator); \"Biblioteca Teatrale Musicale Paolo Grassi\" project; Progetto Finalizzato \"Beni Culturali\"; PARNASO; BIBLOS; ADAPT-TECLA; Progetto Strategico sull'Industria delle Lingue. • Regional Projects: Atlante Lessicale Toscano (with Regione Toscana and Accademia Toscana di Scienze e Lettere \"La Colombaria\"); \"Il futuro della memoria\" (with the Town Council of Florence); \"PROFILE: a Framework for Italian Language Engineering and PROcessing\" (with Regione Toscana) for the funding of pre-competitive research and development;INTERNET FOR ALL (Multimodal filtering for browsers); VIRTUAL CONSULTANT (Consultation of thematic data base). ILC has research and development contracts with a number of Italian and foreign industries, favouring relationships with Tuscan companies. Computational Linguistics and the international context The major international and national agencies have acknowledged CL as an autonomous discipline developing knowledge, methods, technologies, highly specific tools - which distinguish it from the other strictly connected disciplines - and have dedicated to it autonomous research programs within their institutional activity. NLP is a multidisciplinary field and in these programs is defined as ‘pervasive’ or ‘horizontal’: language is in fact the privileged means for interaction and it is through language that most of the social, economical and cultural activities take place, and its applications have a crucial impact in many fields, with important consequences both in economical and occupational terms. As information is driven by natural languages and is stored mainly on electronic support, it is important to dispose of tools able to automatize, at least partly, the linguistic operations necessary to produce, store, retrieve, access and process the linguistic data. Strictly connected to the issue of user-friendly access to information is the problem of multilinguism. Prominent figures (as past French President Mitterand, in a famous speech held at the Académie de France) have warned that those languages for which no adequate automatic processing tools have been developed are at the risk of gradually losing their position in the global society, together with the cultures they convey, with serious damage to cultural diversity, one of the most important resources of mankind. In order to avoid such risks, it is necessary to support language processing automation, as highlighted in a recent G8 summit. It is therefore urgent and essential to continue developing, also for the Italian language, products and services able to automatically process our language, if we want the national community to be able to adequately respond to the challenge of the global society and to benefit from the relative social, economical and occupational advantages. Objectives and tasks in ILC scientific activities Having acknowledged the interdependency between basic and applied research, we have identified a number of big mid-long term strategic objectives requiring a concentration of resources that are ‘catalystic’ with respect to the different ILC project activities (both institutional and finalized), and in line with the aims identified in the European FP6: • Promotion of the Italian language in the global society and in the new Internet generation • Production, access and ‘intelligent’ use of the digital (even multimedia) content • Natural interactivity and intelligent interfaces for a ‘user-friendly’ society • Cultural heritage and digital content • Promotion of humanistic research in the Information Society Their aim is to : i. create innovative contexts for the development of new strategic and multi-field technologies, ii. focus the different aspects of Computational Linguistics on the big strategic themes, conveying efforts and favouring integration of different activities towards common objectives, iii. encouraging synergies with similar activities in Europe and in other continents where similar objectives are already prioritary, iv. fostering collaborations with Italian and foreign companies for the development of common activities. ILC main tasks consist principally in: • Promoting basic research for the advancement of knowledge in the field of NLP on issues for which the state-of-the-art suggests the need for significant innovations, favouring the synergies among the different disciplinary competences involved. • Studying innovative methods and tools and developing technologies and basic linguistic resources to be used and integrated in different types of services and in applicative systems, in order to promote the development of the Italian industry in the field, in particular reducing the initial “start-up” costs of development activities. • Studying and developing methods and models for multimodality through the integration of language technologies and image and spoken language processing. • Studying and building innovative prototypes and systems for applying language technologies to researches and applications in the field of humanistic disciplines, access to cultural heritage and promotion of the Italian language. • Stimulating the constant relationship with industries and operating the transfer of technologies to the industry. • Studying and adopting modalities for the monitoring of project activities; evaluating and validating the results with methodologies conformant to the state-of-the-art and with international reference systems. • Promoting and participating in EC and in the activities of International Bodies and programs which require the use of language technologies. • Ensuring the representation of our country in the major scientific and professional international Institutions. • Performing interdisciplinary training in research and technological development of young researchers, through doctorates (even European), grants, contracts. A serious obstacle to the development of NLP appropriate to the strategic needs of the country is, according to the Italian industries, the difficulty in finding personnel staff with specific NLP training and competence. • Organizing congresses, workshops, international and national meetings on strategic issues in the domain of CL, in order to favour the dissemination of scientific knowledge and the creation of synergies among the various communities operating in the field. Permanent and non-permanent staff Staff members: 33 (three non-permanent, paid with external funding) Research grants: 10 Scholarships: 3 (Phd students) (literal)
  • Fondato come istituto indipendente del CNR nel 1980, l’ILC ha oggi una consolidata posizione di centro di riferimento, a livello nazionale e internazionale, nel settore della Linguistica Computazionale. Svolge attività di ricerca, di valorizzazione e trasferimento tecnologico e di formazione in settori scientifici strategici della disciplina. Le principali aree di competenza dell’Istituto sono rappresentate da: Analisi del Testo e Filologia Computazionale; Trattamento Automatico del Linguaggio Naturale; Risorse Linguistiche, Standard e Infrastrutture; Modelli (Bio-)Computazionali dell'Uso Linguistico. La ricerca all’interno di ciascuna area è altamente interdisciplinare e coinvolge competenze e professionalità diverse, principalmente condivise tra linguistica, linguistica computazionale, informatica e bio-ingegneria. L’ampio spettro di competenze disponibili all’ILC si riflette nella varietà e poliedricità delle sue linee di attività e progetti di ricerca, che lo rendono una realtà unica nel panorama italiano e una delle poche a livello internazionale, dove si affiancano ricerche innovative nel settore delle Digital Humanities ad attività volte alla definizione di standard e infrastrutture di ricerca distribuite per arrivare alla definizione di metodi e tecniche avanzate per la ricerca e gestione “intelligente” dell’informazione all'interno di basi documentali in linguaggio naturale in continua evoluzione disponibili sul Web o su Intranet locali, fino alla messa a punto di modelli computazionali dell’apprendimento linguistico in contesti ecologici di interazione comunicativa. La ricerca all’ILC combina ricerca di base, con un investimento su temi di frontiera, e ricerca applicata all’interno di un circolo virtuoso con ricadute significative sulla società e in particolare sul contesto socio-economico e culturale. E’ condotta all’interno di una rete consolidata di collaborazioni nazionali e internazionale con Istituti di ricerca, Università ed Enti pubblici così come industrie nell’ambito di progetti di ricerca europei, nazionali e regionali. Nel corso degli anni, l'ILC ha intrattenuto numerosi rapporti di collaborazione e trasferimento tecnologico sia con piccole e medie imprese, sia con grandi realtà industriali nazionali e multinazionali (tra le quali, Zanichelli, Vodafone, IBM, Microsoft, Meta, Noema Life, Loquendo, Google). Il trasferimento tecnologico dell’ILC riguarda le competenze acquisite in diversi settori della linguistica computazionale così come risorse e tecnologie linguistiche che sono state integrate all’interno di prodotti applicativi per la realizzazione di funzionalità avanzate di accesso a basi documentali anche di grandi dimensioni e in continua evoluzione. All'ILC grande importanza è anche attribuita alle attività di formazione, che sono svolte attraverso la docenza di ricercatori all’interno di corsi presso università italiane e straniere così come mediante il coinvolgimento di dottorandi, laureandi e stagisti nelle attività di ricerca in corso. Le attività editoriali e di promozione e divulgazione scientifica costituiscono un altro importante filone di attività dell'ILC. Oltre a curatele di volumi dedicati allo stato dell’arte in diversi settori della linguistica computazionale, le attività editoriali dell’ILC includono due importanti riviste dei settori della linguistica computazionale e della linguistica: il Journal Language Resources and Evaluation (LRE) (Springer), e la rivista Lingue e linguaggio (Il Mulino). A queste dovrebbe affiancarsi, a breve, il rilancio della rivista Linguistica Computazionale fondata da Antonio Zampolli nel 1981 e originariamente pubblicata da IEPI (Pisa-Roma): la nuova rivista, che dovrebbe avere un respiro internazionale ed essere “open access”, andrebbe a colmare un vuoto a livello nazionale e andrebbe ad affiancarsi alle poche riviste nel settore della linguistica computazionale a livello internazionale. Le attività di promozione e divulgazione scientifica sono varie e spaziano dall’organizzazione di importanti conferenze e workshop nel settore della linguistica computazionale a livello nazionale e internazionale (LREC, TAL, ESF Workshop), l’organizzazione di scuole estive (ESF Interdisciplinary Summer School on the Mental Lexicon), la partecipazione a network e associazioni (CLARIN, FlaReNet, NetWordS, META-NET, ELRA, ISO, FORUM TAL, ACL), per arrivare alla partecipazione a eventi rivolti a un vasto pubblico quali, ad esempio, l’Internet Festival, l’iniziativa Area Aperta del CNR di Pisa, la Fiera del Libro di Torino, il Festival della Scienza, la Notte dei Ricercatori fino ad attività di divulgazione scientifica tramite interventi su stampa e radio nazionali. (literal)
  • Collaborazioni a livello internazionale dell’ILC Alcuni esempi possono indicare come la leadership del gruppo di Pisa sia riconosciuta a livello internazionale, e possono evidenziare le numerosissime collaborazioni internazionali. L’ILC: • Ha “vinto” numerosi progetti in “bandi” comunitari, alcuni come coordinamento a livello europeo. In particolare ha coordinato/coordina: - un nuovo Thematic Network Europeo - FLaReNet - per fornire alla Commissione Europea raccomandazioni su priorità e direzioni di ricerca per future iniziative e finanziamenti europei; - i progetti comunitari per la produzione di risorse linguistiche armonizzate per tutte le lingue dell’Unione Europea; - la produzione di standard internazionali e “guidelines di best practice” (uno dei 3 progetti finanziati da NSF e CEE) per i settori più avanzati e innovativi del TAL, collaborando con più di 100 gruppi in Europa, America, e Asia; - diversi progetti di ricerca e sviluppo. • Ha promosso, e partecipato a numerose iniziative o progetti a livello internazionale. • Ha promosso la fondazione di ELRA - European Language Resources Association, di cui il Direttore è Vice-Presidente, per la distribuzione di risorse linguistiche, per la ricerca scientifica e lo sviluppo di applicazioni commerciali e industriali per le RL. • Partecipa all’ISO TC37/SC4/WG4 come Convener. • Ha promosso la nuova Infrastruttura di Ricerca ESFRI CLARIN, ci cui il Direttore è Chair dello Scientific Board, di cui fanno parte i rappresentanti dei più di 30 paesi membri, e in cui il Direttore rappresenta l'Italia per delega del MiUR. • E’ stato promotore ed è un attore centrale dell’International Committee for Written Resources Infrastructure Technology and Evaluation – WRITE, con rappresentanti dei maggiori gruppi di R&S a livello mondiale. • Ha promosso e coordinato una azione di coordinamento scientifico e organizzativo tra i Progetti Nazionali dei diversi Governi europei (ENABLER). • Ha promosso il Network d’Eccellenza per lo Speech e il Natural Language (ELSNET) nel cui Management Board rappresenta l’Italia. • E’ membro, in particolare attraverso il Direttore, di numerosi e dei più importanti comitati e ‘board’ internazionali e nazionali nel settore della linguistica computazionale. • Rappresenta l’Italia nella maggior parte delle Associazioni scientifiche internazionali. • E’ stato promotore di numerosissimi workshop, conferenze, e meeting internazionali con la collaborazione e partecipazione dei maggiori gruppi di R&S a livello mondiale. • Ha collaborazioni intense in diversi progetti e iniziative con numerosi colleghi e gruppi di paesi Asiatici, compresa la \"Asian Federation for Natural Language Processing – AFNLP\". • Ha la presidenza e la chairmanship delle più importanti conferenze nazionali e internazionali (TAL, LREC, COLING/ACL, TALEP). Collaborazioni a livello nazionale dell’ILC • Partecipiamo come membri fondatori al Forum per il Trattamento Automatico del Linguaggio (TAL), presso il Ministero delle Comunicazioni. • Abbiamo disegnato, proposto, e coordinato scientificamente i primi due progetti di interesse nazionale del MIUR nel settore del TAL: a) “Infrastruttura nazionale per le risorse linguistiche nel settore del trattamento automatico della lingua naturale parlata e scritta (ai sensi della legge 46/82 art. 10)”, con 13 partner industriali per un costo di 5 miliardi; b) “Linguistica computazionale: ricerche monolingui e multilingui” (ai sensi della legge 488), affidato a 8 soggetti attuatori, con circa 30 partner e un costo di circa 15 miliardi. • Abbiamo organizzato con il Ministero delle Comunicazioni e la FUB il Convegno Nazionale TAL2006. Il Convegno ha visto oltre 450 partecipanti, in buona parte in rappresentanza di Industrie, Pubbliche Amministrazioni e Associazioni Professionali nazionali. Abbiamo organizzato il convegno nazionale TALEP: \"Politica, Cittadini e Tecnologie: raccomandazioni per l’e-Participation del 2010\" Elenchiamo le più importanti collaborazioni. Collaborazioni commessa: Architettura di Tecnologie Linguistiche per la Promozione dell'Italiano nella Società della Conoscenza La piattaforma si qualifica come 'enabling technology', per rendere possibile, tecnologicamente e organizzativamente, la collaborazione effettiva dei maggiori centri del settore in Italia, che saranno coinvolti anche attraverso il Forum TAL (Ministero Comunicazioni). È l'unico modo per creare la massa critica necessaria per far decollare il settore, permettendo di concentrare gli sforzi sugli aspetti più innovativi e di sviluppare in tempi brevi applicazioni avanzate. In ottica di implementare una piattaforma integrata di strumenti e risorse nell'istituto basata su UIMA, si stanno ponendo le basi per una collaborazione, anche tecnica, con IBM. Si è partecipato con successo alla preparazione della proposta di una infrastruttura di ricerca europea per le Humanities in ambito ESFRI, CLARIN, inserita prima nella Roadmap ESFRI per una pan-European Research Infrastructure, e ora finanziata, con più di 30 partner europei, fra cui i più importanti centri del settore. Sono in corso collaborazioni con progetti i) internazionali, quali il COE21 LKR (\"Framework for Systematization and Application of Large-scale Knowledge Resources\") del Tokyo Institute of Technology (il direttore è membro dell'Advisory Group), ii) europei (CLARIN), iii) nazionali (INFN-GRID), iv) regionali (e-science Grid). La piattaforma LexFlow per lo sviluppo, integrazione ed arricchimento di risorse lessicali e semantiche basata su un workflow in cui agenti umani e software interagiscono è stata implementata ed ampliata in collaborazione con l'Istituto di Informatica e Telematica, CNR e con Accademia Sinica di Taipei, Taiwan. E' iniziata inoltre una collaborazione sul tema del Grid con la Scuola Normale Superiore Pisa e l'Istituto Nazionale di Fisica Nucleare (Pisa, Padova, Bologna, Torino) tesa alla preparazione di una proposta di infrastruttura Grid Pisana. Collaborazione con ELRA (European Language Resources Association), Parigi e ILSP (Institute for Language and Speech Processing), Atene per il modello di produzione di risorse linguistiche. Collaborazioni commessa: Disegno di Standard e Costruzione di Risorse Linguistico Computazionali La maggior parte delle attività della Commessa si inquadrano nell'ambito di progetti nazionali ed internazionali e sono svolte con finanziamenti esterni erogati dall'Unione Europea, oppure dallo stato italiano o dalle Regioni così come da ditte private. Progetto europeo IST - Network of Excellence DEMONET: Nordjllands Amt (DK); University of Leeds; Oerebro Unovesitet (S); Universitaet Kobelnz-Landau; Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung E.V.; Insitut fuer Informationsmanagment Bremen GMBH; University of Macedonia, Economic and social Sciences; Insitute of Communication and Computer Science (Athens); Handelshoejskolen I Koebenhavn (DK); Allborg Universitet (DK); Fondation Nationale des Sciences Politiques (F); Technicka Univerzita v Kosiciach (SK); Yorkshire and the Humber Assembly (UK); Agentura pro Evropske Projekty & managment (CZ); Napier University (UK); Haskoli Islands (IS); Helsingin Yliopisto (F). Progetto europeo IST - Specific Targeted Research Project BOOTSTREP: Friedrich-Schiller-Universitaet Jena (D); European Molecular Biology Laboratory (D); The University of Mancherster (UK); Universite de Rennes (F); Institute for Incomm Research (SGP); Universitaetsklinikum Freiburg (D). Progetto Europeo ICT - KYOTO - Knowledge Yielding Ontologies for Transition-based Organization: Faculteit der Letteren, Vrije Universiteit Amsterdam; CNR-IIT; Berlin-Brandenburg Academy of Sciences and Humantities; Euskal Herriko Unibertsitatea; Academia Sinica; National Institute of Information and Communications Technology; Irion Technologies B.V.; Synthema; European Centre for Nature Conservation. Progetto europeo eContent LIRICS: Loria-CNRS/INRIA – Institut National de Recherche en Informatique et Automatique, Francia; IULA-UPF (University Pompeu Fabra), Barcelona; DFKI, Saarbrueken; Tilburg University; Wien University; Sheffield University; Surrey University; MPI- Max-Planck Institut, Nimega. Partner industriali: Acrolinx, Berlin, Germany; BT Exact, Regno Unito; EADS CCR, Suresnes, France; Esteam, Athens, Greece; Expert System Language Technology, Modena; HP, Galway, Ireland; Morphologic, Budapest, Hungary; Ontotext, Sofia, Bulgaria; PEARSON – Longman, Harlow, Regno Unito; Polderland, Nijmegen, The Netherlands; Q Spere, London, Regno Unito; Quinary, Milano; SDL Multilingual Services, Stuttgart, Germany; Sinequa, Ivry, France; Synthema, Pisa; SYSTRAN, Paris, France; Tagmatica, Paris, France; Telefonica Investigación y Desarrollo, Madrid, Spain; TEMIS, Heidelberg, Germany; THAMUS, Salerno; XtraMind, Saarbrücken, Germany. Working Group ISO: ISO TC37/SC4; UNI – Ente nazionale Italiano di Unificazione; AFNOR – Francia; Kent State University, OH, USA; ANSI American National Standards Institute, Washington, USA; MITRE, USA; Utrecht University. Progetto Giapponese NEDO: Tokyo Institute of Technology (Japan), Academia Sinica (Taiwan), Thai Computational Linguistics Laboratory (Thailandia), Fujitsu Research & Development Center – Beijing, (China), Japan Advanced Institute of Science and Technology (Japan). Preogetto Giapponese Language GRID: Kyoto University; NICT - Kyoto; DFKI - Saarbruecken. Progetto europeo eContent INTERA: ELDA (France), Max-Planck Institute (The Netherlands), USAAR Universität des Saarlandes (Germany), LORIA Laboratoire Lorrain de recherche en informatique et ses applications (France), ILSP Institute for Language and Speech Processing (Greece). Ministeri: MIUR: MIUR 488: Corpora e Lessici di Italiano parlato e scritto; Ministero delle Comunicazioni: Forum TAL. Enti pubblici: Regione Toscana; FORMEZ, Dipartimento della Funzione Pubblica. ESFRI: Max-Planck Institut for Psycholinguistics-Nijmegen; LORIA–CNRS, Nancy; Utrecht University. Collaborazioni in altri progetti e in iniziative strategiche: ELRA-European Language Resources Association; CST–University of Copenhagen; Nuance Communications International, Utrecht; IBM Germany, Mannheim; IBM Italia, Roma; ICCL - International Committee of Computational Linguistics; WRITE - Written Resources Infrastructure Technology and Evaluation; ELSNET - European Network of Excellence of Language and Speech: University of Utrecht; ELDA - Parigi; Centro di Linguistica Applicata, Santiago di Cuba; Senseval; SIGLEX; ECHO; Telefonica Investigacion y Desarrollo sa Unipersonal; ISSCO, Ginevra; FUB – Fondazione Ugo Bordoni, Roma; Progetto NIR - Norme in Rete; META S.r.l., Lucca; Agenzia Marittima S. Spadoni s.r.l., Livorno; Sprak Centrum Italienska, Umea Universitet, Finlandia; University of Jyvaskyla, Finlandia; Vassar College, Poughkeepsie; Accademia Sinica, Taipei; AAC – Austrian Academy; UAM, Città del Messico; IBILCE, Universidade Estadual Paulista “Júlio de Mesquita Filho” Brasile; Japan Advanced Institute of Science and Technology, Tokyo; Università Autonoma Metropolitana, Città del Messico – Messico; Università di Pisa: Dipartimento di Linguistica, Centro Linguistico Interdipartimentale, Dipartimento di Informatica; Scuola Normale Superiore di Pisa: Laboratorio di Linguistica; Università di Pavia: Dipartimento di Linguistica; Università per Stranieri di Perugia; Università di Torino; Università di Lecce; CNR-ISTI; CNR-ISTC; CNR-ITTIG. Collaborazioni commessa: Modelli e Metodi per il Trattamento delle Lingue Naturali, e Prototipi Applicativi Mono e Multilingui La maggior parte delle attività della Commessa si inquadrano nell'ambito di progetti nazionali ed internazionali e sono svolte con finanziamenti esterni erogati dall'Unione Europea, oppure dallo stato italiano o dalle Regioni così come da ditte private. Tra gli Istituti di ricerca, le Università e gli Enti pubblici e privati, nazionali ed internazionali, con i quali l'ILC collabora per lo svolgimento delle attività della Commessa vale la pena menzionare: Xerox Research Centre Grenoble, Fraunhofer Gesellschaft zur Förderung der angewandten Forschung, DFKI Saarbrueken, Istituto Politecnico di Madrid, Russian Academy of Sciences, Università di Manchester, Friedrick Schiller Universitaet Jena, European Bio-Informatics Institute Hinxston UK, National Centre for Text Mining Manchester, Tsujii Laboratory presso l'Università di Tokio, Università di Rennes, Université de Toulouse – Le Mirail, Institute for Infocomm Research, Singapore, University of Sheffield, UAM Città del Messico, Università Pompeu Fabra di Barcellona, Siemens Italdata, Istituto Trentino di Cultura (ITC-irst), Scuola Normale Superiore di Pisa, Università della Calabria, Università di Pisa, Università di Trento, Università di Pavia, Università degli Studi di Bari, Università di Lecce, Università di Salerno, FORMEZ, Regione Toscana. Collaborazioni commessa: Metodi e Strumenti Computazionali per la Ricerca Umanistica, con particolare riguardo alle Discipline Linguistiche, Letterarie e alla Lessicografia Oltre alle collaborazioni già citate (Regione Toscana e MIUR per la legge 488) abbiamo tutta una serie di collaborazioni con istituzioni e progetti che costituiscono l'eredità e la ricchezza della nostra attività di competenza e di supporto : Istituto Universitario Orientale di Napoli e Dipartimento di Scienze del Mondo Antico dell'Università di Pisa nell'ambito della legge 488. L'Università degli Studi di Firenze (Centro di Eccellenza CLIEO). Il Museo dell'Opera del Duomo di Firenze per il progetto Cupola. Scuola Normale Superiore per il progetto \"Lo Zibaldone di Pensieri\" di Giacomo Leopardi. La Facoltà di Giurisprudenza dell'Università degli Studi di Pisa per la biblioteca digitale delle Fonti Giuridiche degli Antichi Stati Italiani. La Garzanti Libri e The Edinburgh Journal of Gadda Studies (EJGS) per il progetto Gadda. L'Accademia della Crusca per il progetto LIR (Lessico Radiofonico Italiano) l'analisi testuale di testi radiofonici. La Facoltà di lettere dell'Università di Perugia. L'IRSIG-CNR di Bologna per il progetto FIRB \"Tecnologie per la Giustizia\", CVCL (Centro di Valutazione di Certificazione Linguistica) dell'Università per Stranieri di Perugia. Collaborazioni commessa: Tecnologie per l’analisi filologica di documenti digitali di cultura Fondazione Paolo Grassi, Martina Franca; META srl Lucca; IFC (CNR), Pisa; Institute of Mathematics and Informatics at Sofia University, Sofia; Fondazione Rosselli, Torino; Czech National Library, Praga; Fondazione Rinascimento Digitale, Firenze; Istituto e Museo di Storia della Scienza, Firenze; Catholic University, Louvain-la-Neuve; Università della Svizzera Italiana, Lugano; ITEM-CNRS, Parigi; CEC Università di Lisbona, Lisbona; Università Cattolica, Milano; Istituto degli Innocenti, Firenze. (literal)
  • L’ILC affianca da sempre alle attività di ricerca e sviluppo anche attività di alta formazione, che sono svolte sia esternamente sia internamente. Sul versante esterno, ricercatori dell’ILC hanno svolto e/o svolgono attività di docenza in numerose università italiane (come Bologna, Ferrara, Firenze, Macerata, Pavia, Perugia, Pisa, Siena) e internazionali (Venice International University; Université Sidi Mohammed Ben Abdellah, Fès, Marocco). Va anche segnalata la partecipazione a collegi di docenza di dottorato di ricerca (in particolare, Pavia e Pisa) così come il co-tutoraggio di tesi di dottorato svolte in università italiane e straniere. Si tratta di attività strategiche che permettono di instaurare e/o rafforzare rapporti di collaborazione con gruppi di ricerca degli atenei coinvolti, e che rendono possibile la formazione e il reclutamento di giovani in progetti di ricerca dell’ILC. Tra le varie collaborazioni in questo ambito, vale la pena menzionare il rapporto privilegiato con l’Università di Pisa, in particolare con il corso di Laurea in \"Informatica Umanistica\", all’interno del quale l’ILC contribuisce all’offerta formativa mediante l’insegnamento di corsi di Linguistica Computazionale (nell’ambito dei corsi di laurea triennale e magistrale). L’attività di alta formazione dell’ILC riguarda anche università straniere: essa è espletata mediante l’insegnamento di corsi, ad esempio presso dottorati di ricerca in università straniere, mediante la partecipazione di suoi ricercatori a comitati di tesi dottorali così come mediante l’organizzazione e l’insegnamento di corsi nell’ambito di Summer School del settore della Linguistica Computazionale (es. la European Summer School in Logic, Language and Information – ESSLLI- o le NetWordS Summer Schools) o di settori in cui tecnologie linguistico-computazionali svolgono un ruolo centrale come nel caso del dominio giuridico (es. la Summer School LEX – Managing Legal Resources in the Semantic Web). Sul versante interno, grazie alla forte interdisciplinarietà della ricerca condotta, l’ILC si presenta come un luogo di formazione unico che offre competenze non attivabili all’interno dell’Università, caratterizzata dalla monodisciplinarietà della ricerca. La formazione spazia dai diversi settori della linguistica computazionale allo studio di discipline umanistiche supportato da metodi e strumenti computazionali (come nel caso della filologia computazionale). Ad oggi, numerosi sono i lavori di tesi di laurea (triennale o magistrale) e di dottorato in corso a cui l’ILC collabora a diverso titolo. Sei sono le tesi di dottorato in corso tra borsisti, assegnisti ma anche ricercatori afferenti alla struttura, alle quali va aggiunta la collaborazione a tesi svolte esternamente, sia a livello nazionale e internazionale: in molti di questi casi, l’attività di formazione avviene attraverso la collaborazione a progetti internazionali e nazionali. L’ILC svolge attività di formazione anche ospitando stagisti e tirocinanti presso la propria struttura grazie a particolari convenzioni con università italiane, prima tra tutte l’Università di Pisa e in modo particolare il corso di Laurea in \"Informatica Umanistica\". (literal)
  • Via Giuseppe Moruzzi, 1 (literal)
  • 56124 (literal)
  • Pisa (literal)
  • PI (literal)
  • 050-315-2872 / 050-315-8379 (literal)
  • 048 (literal)
  • Il carattere tipicamente multidisciplinare e “trasversale” del Trattamento Automatico del Linguaggio (TAL) richiede, tra le altre, competenze di base nei settori dell’informatica e della linguistica. L'attività di ricerca dell’ILC è mirata allo studio di modelli, alla strutturazione e produzione di dati e risorse linguistiche, allo sviluppo e sperimentazione di strumenti per rappresentare, formalizzare e tradurre in algoritmi, prototipi, e sistemi applicativi, funzionanti e robusti, le diverse operazioni linguistiche necessarie per codificare, produrre, gestire, memorizzare, trasmettere, comunicare, recuperare, utilizzare l’informazione. La ricerca fondamentale in Linguistica Computazionale (LC) ha prodotto un patrimonio di conoscenze, modelli, metodi, tecniche, strumenti, che trovano utilizzazione in applicazioni di elevato valore culturale e socioeconomico. Le attività della LC, sia di ricerca sia di sviluppo, richiedono conoscenze approfondite della metodologia della disciplina, e competenze scientifiche acquisite attraverso una formazione specifica nel settore. Le industrie italiane hanno individuato ripetutamente come ostacolo principale, per uno sviluppo del settore adeguato alle necessità strategiche del paese, la difficoltà di reperire personale con formazione e competenze disciplinari specifiche. Mentre sono disponibili linguisti, ingegneri, informatici, umanisti, mancano - a causa degli ordinamenti di studio - giovani con formazione specifica in LC. L’ILC è anche un luogo di formazione di competenze specifiche di LC per numerosi giovani, vincitori di assegni di ricerca, impegnati in diversi progetti europei, nazionali, o in collaborazione con industrie. Lo stesso vale per diversi dottorandi, stagisti, borsisti e tesisti. Per quanto riguarda il personale dell’ILC, le principali competenze acquisite si possono classificare in parte all’interno di settori tradizionali della LC, quali: • Standardizzazione di risorse linguistiche • Lessici computazionali • WordNets • Annotazione automatica di testi a diversi livelli (morfologico, sintattico, semantico) • Corpora testuali • Corpora multimodali • Annotazione di dialoghi • Acquisizione automatica di informazioni e ‘machine learning’ • ‘Information retrieval’ • ‘Information Extraction’ • Collocazioni e ‘multiwords’ • Filologia computazionale • Didattica e disabilità • Data base testuali • Metodi e tecniche di valutazione di sistemi • Estrazione automatica di terminologie Inoltre, recentemente si stanno sviluppando competenze in settori quali: • Standard di rappresentazione del Semantic Web • ‘Open source’ software • Statistica matematica • Ontologie • Sommarizzazione automatica • ‘Text mining’ • ‘Question answering’ • Sistemi di ‘filtering’ • Validazione di risorse linguistiche • Distribuzione di risorse linguistiche • Morfologia della lingua Araba • Biblioteche virtuali per il settore umanistico • e-Government e e-Democracy (literal)
  • (literal)
  • (literal)
  • Via Giuseppe Moruzzi, 1 - 56124 Pisa (PI) (literal)
  • La missione dell’Istituto è quella di contribuire allo sviluppo scientifico e tecnologico in settori strategici della Linguistica Computazionale svolgendo attività di ricerca, di valorizzazione e trasferimento tecnologico e di formazione. Questo obiettivo è perseguito attraverso:
    • la combinazione di ricerca di base e ricerca applicata all’interno di un circolo virtuoso con particolare attenzione alle ricadute sulla società e sul contesto socio-economico e culturale;
    • la collaborazione con Istituti di ricerca, Università ed Enti pubblici così come con industrie nell’ambito di progetti e accordi di collaborazione scientifica internazionali, europei, nazionali e regionali;
    • la formazione di studenti condotta attraverso sia attività di docenza presso università italiane e straniere sia il coinvolgimento di dottorandi, laureandi e stagisti nelle attività di ricerca in corso;
    • il trasferimento tecnologico delle risorse e tecnologie linguistiche sviluppate sia a piccole e medie imprese, sia a grandi realtà industriali nazionali e multinazionali.
  • Fin dalle origini, l’ILC ha ripartito le sue attività tra diverse linee di ricerca. Inizialmente, il focus era su quelle che costituiscono le “anime” storiche della linguistica computazionale: da un lato lo “Humanistic Text Processing” (HTP), rappresentato dal ricorso a metodi e tecniche computazionali a supporto di ricerche umanistiche su testi con particolare attenzione alla filologia, e dall’altro il “Natural Language Processing” (NLP) volto all’analisi delle strutture linguistiche soggiacenti al testo. Nel corso degli anni, a partire dalla fine degli anni ‘80, sono state sviluppate importanti sinergie tra le due linee di attività, che hanno dato origine a una linea di ricerca strategica, dedicata alla progettazione e costruzione di risorse e infrastrutture linguistiche e alla definizione di standard di rappresentazione condivisi. Più recentemente, seguendo gli sviluppi correnti nel settore della linguistica computazionale, a queste linee di attività “storiche” si è affiancato un innovativo filone di ricerca, che potremmo definire di frontiera, focalizzato sullo studio dei modelli bio-computazionali del linguaggio e della cognizione. Le linee di ricerca delineate sopra continuano a rappresentare settori di attività strategica che costituiscono la ricchezza e l’unicità dell’ILC. Alla base dell’organizzazione interna delle attività dell’Istituto in Commesse e Moduli, tali linee sono tipicamente sviluppate all’interno di progetti di ricerca e collaborazioni a livello internazionale e nazionale. Segue una breve caratterizzazione di ciascuna di esse. Analisi testuale e filologia computazionale
    • l’innovazione tecnologica nel settore della digitalizzazione di grandi archivi documentali ha determinato una profonda trasformazione delle modalità di conservazione, fruizione, studio e pubblicazione dei documenti letterari, archivistici e bibliotecari, offrendo nuove prospettive di indagine e condivisione;
    • obiettivo di questa linea strategica è analizzare e favorire l’impatto di questa rivoluzione tecnologica sulle pratiche critico-editoriali correnti, coniugando le acquisizioni e conoscenze delle scienze informatiche con gli approcci metodologici e i modelli teorici dell’analisi e della filologia del testo;
    • le soluzioni tecnologiche messe a punto in questo ambito si integrano in un sistema “multi-modulare” a componenti indipendenti ma interconnessi, da cui le diverse metodologie di accesso, gestione, studio e revisione del testo possono trarre vantaggio e opportunità di interazione/integrazione.
    Trattamento Automatico del Linguaggio ed Estrazione della Conoscenza
    • l’accesso effettivo al contenuto di un testo passa attraverso la comprensione delle strutture linguistiche mediante le quali quel contenuto è rappresentato; non c’è conoscenza accessibile, senza conoscenza linguistica;
    • obiettivo di questa linea strategica è rendere espliciti quei nuclei di conoscenza linguistica che rispondono a una vasta gamma di bisogni informativi dei parlanti, dall’accesso su base semantica al contenuto testuale, alla valutazione della struttura del testo come indicatore della sua accessibilità ed efficacia comunicativa;
    • le soluzioni tecnologiche sviluppate in questo ambito rispondono alle necessità di ricerca e gestione “intelligente” dell’informazione contenuta all’interno di grandi basi documentali in continua evoluzione, e sono propedeutiche allo sviluppo di un ampio ventaglio di applicativi commerciali.
    Risorse Linguistiche, Standards e Infrastrutture
    • l’esigenza di facilitare la ricerca nel settore dell’ingegneria delle lingue e ottimizzare il ciclo di produzione delle risorse linguistiche chiama in causa l’adozione di standard, lo scambio di buone pratiche per l’interoperabilità, il riciclo e il riutilizzo dei risultati disponibili in termini di dati e strumenti;
    • obiettivo di questa linea strategica è la definizione di modelli per la creazione, rappresentazione, estensione e mantenimento di lessici computazionali, repertori terminologici e ontologici, corpora e tecnologie linguistiche;
    • le soluzioni tecnologiche messe a punto in questo ambito sono rivolte allo sviluppo di un'infrastruttura di ricerca distribuita e cooperativa, volta a stabilire nuove funzionalità di accesso, interoperabilità e condivisione di risorse e strumenti linguistici.
    Modelli (Bio-)Computazionali dell'Uso Linguistico
    • nonostante gli enormi progressi degli ultimi anni, siamo ancora lontani da una comprensione dettagliata di come predisposizioni cognitive, input linguistico e meccanismi neurali interagiscono nello sviluppo linguistico-cognitivo del bambino e nei processi elaborativi del parlante adulto;
    • obiettivo di questa linea strategica è l’indagine simulativa delle relazioni di corrispondenza tra principi di organizzazione della grammatica (lessico e regole), processi di elaborazione linguistica (memoria e computazione) e loro localizzazioni neuro-funzionali (aree corticali prefrontali e temporo-parietali della rete perisilviana nell’emisfero sinistro);
    • architetture hardware ad alte prestazioni rendono oggi possibile studiare questa corrispondenza attraverso l’uso di reti neurali artificiali auto-organizzanti, aprendo la strada allo sviluppo di più efficaci metodologie educative, protocolli di diagnosi precoce e tecnologie riabilitative personalizzate per i disturbi della comunicazione verbale e non verbale.
    Recentemente, sono stati istituiti al’interno dell’istituto nuovi spazi di ricerca, costituiti dai Laboratori che si presentano come strutture trasversali e dinamiche con la duplice funzione di interfaccia verso l’esterno delle linee di attività e ricerca che vi afferiscono e, sul versante interno, di incubatori di nuove idee e soluzioni tecnologiche basate sull'integrazione e la condivisione di competenze, infrastrutture e tecnologie. I Laboratori attivi al momento sono costituiti da:
    • ComPhys - Fisiologia della Comunicazione Lab ( Il laboratorio, che nasce sulla base di una convenzione interdipartimentale CNR per attività di collaborazione scientifica tra l’Istituto di Fisiologia Clinica (IFC) del CNR e l’ILC, promuove attività di ricerca di base sulle tematiche dell’adeguatezza ed efficacia pragmatica della comunicazione verbale e dei disturbi della comunicazione verbale e non verbale, con particolare attenzione allo sviluppo di modelli bio-computazionali esplicativi
    • CoPhiLab ( Le tematiche di ricerca del laboratorio si articolano intorno a tre assi principali: formalizzazione delle entità e delle relazioni nel dominio della filologia collaborativa; creazione di risorse digitali per le lingue classiche; progettazione e sviluppo di componenti software per le lingue classiche.
    • ItaliaNLP Lab ( Le principali attività di ricerca del laboratorio sono finalizzate alla progettazione e sviluppo di modelli, metodi, algoritmi e tecnologie per il Trattamento Automatico del Linguaggio, con particolare attenzione alla lingua italiana, e coprono settori che spaziano dall'annotazione linguistica multi-livello di testi e l'estrazione di conoscenza da collezioni documentali, anche di vaste dimensioni, allo sviluppo di prototipi applicativi. (literal)
