Recenti sviluppi di SONIC per l’italiano: riconoscimento automatico del parlato infantile (Contributo in atti di convegno)

Type
Label
  • Recenti sviluppi di SONIC per l’italiano: riconoscimento automatico del parlato infantile (Contributo in atti di convegno) (literal)
Anno
  • 2010-01-01T00:00:00+01:00 (literal)
Alternative label
  • Cosi P. (2010)
    Recenti sviluppi di SONIC per l’italiano: riconoscimento automatico del parlato infantile
    in AISV 2009, 5th Conference of Associazione Italiana di Scienze della Voce - "La dimensione temporale del parlato", Zurigo, Svizzera, 4-6 febbraio 2009
    (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#autori
  • Cosi P. (literal)
Pagina inizio
  • 555 (literal)
Pagina fine
  • 566 (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#altreInformazioni
  • Cosi P. \"Recenti sviluppi di SONIC per l'italiano: riconoscimento automatico del parlato infantile\" Atti AISV 2009, 5th Conference of Associazione Italiana di Scienze della Voce \"La dimensione temporale del parlato\" Università di Zurigo, Svizzera- 4-6 febbraio 2009 EDK Editore s.r.l., Padova, 2010 65-66 (CD: 555-566). (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#citta
  • Padova (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#url
  • http://www.pholab.uzh.ch/labor/aisv2009/programma/AISV2009program4.pdf (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#titoloVolume
  • \"La dimensione temporale del parlato\" - AISV 2009, 5th Conference of Associazione Italiana di Scienze della Voce (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#volumeInCollana
  • V (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#note
  • Abstract Book & CD-Rom Proceedings 65-66 (CD: 555-566). (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#pagineTotali
  • 12 (literal)
Note
  • P (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#affiliazioni
  • ISTC CNR (literal)
Titolo
  • Recenti sviluppi di SONIC per l’italiano: riconoscimento automatico del parlato infantile (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#inCollana
  • AISV 2009 - Abstract Book & CD-Rom Proceedings - \"La dimensione temporale del parlato\" (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#isbn
  • 978-88-6368-087-4 (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#curatoriVolume
  • Schmid S., Schwarzenbach M., Studer D. (literal)
Abstract
  • In questo lavoro vengono descritti i risultati dei più recenti esperimenti di riconoscimento automatico di parlato infantile effettuati, mediante l'utilizzazione del sistema denominato SONIC, su un corpus di parlato letto da bambini di età compresa fra i 7 e i 13 anni. Il corpus utilizzato è stato raccolto presso alcune scuole del Trentino da parte dell'ITCIRST (Giuliani & Gerosa, 2003) ora FBK (Fondazione Bruno Kessler), nell'ambito di un progetto europeo denominato PF-STAR. Il tasso di errore di riconoscimento iniziale di 15.1% per un insieme di 33 unità fonetiche (21,8% considerando un insieme di 40 unità fonetiche) è stato successivamente ridotto al 12.2% (18,6% considerando 40 unità) utilizzando una combinazione delle più aggiornate tecniche di adattamento comprendenti la normalizzazione di lunghezza del tratto vocale (Vocal Tract Lenght Normalization VTLN), la normalizzazione della varianza dei coefficienti Cepstrali (Cepstral coefficients Variance Normalization, CVN) e l'utilizzazione di modelli fonetici addestrati in modalità indipendente dal parlante utilizzando le più recenti strategie iterative denominate Structural MAP Linear Regression (SMAPLR) e Speaker Adaprive Training (SAT). Mentre il tasso di errore del sistema allenato su voci di bambini è paragonabile e addirittura migliore di quello ottenuto da sistemi simili sullo stesso corpus (ad esempio paragonabile al 22.7% ottenuto da un sistema analogo con 28 unità fonetiche come quello utilizzato in (Giuliani & Gerosa, 2003)), esiste ancora un significativo margine di miglioramento per un sistema che utilizzi modelli acustici allenati su parlato adulto e utilizzati per decodificare parlato infantile. Infatti quando sono state applicate entrambe le tecniche VTLN e SMAPLR in una condizione di disallineamento adulti/bambini il sistema finale ha ottenuto un tasso di errore fonetico del 19.3% dimostrando di ridurre l'errore fonetico iniziale del 28%. Ciò nonostante, persiste ancora un notevole 30% di differenza relativa fra l'utilizzazione di modelli acustici allenati su parlato adulto e modelli acustici allenati su parlato infantile per la decodifica di quest'ultimo. (literal)
Prodotto di
Autore CNR
Insieme di parole chiave

Incoming links:


Autore CNR di
Prodotto
Insieme di parole chiave di
data.CNR.it