Sviluppo di un sistema di keyword spotting per l’indicizzazione automatica dei documenti audio (Contributo in atti di convegno)

Type
Label
  • Sviluppo di un sistema di keyword spotting per l’indicizzazione automatica dei documenti audio (Contributo in atti di convegno) (literal)
Anno
  • 2009-01-01T00:00:00+01:00 (literal)
Alternative label
  • Graziano Tisato, Piero Cosi, Isabella Gagliardi (2009)
    Sviluppo di un sistema di keyword spotting per l’indicizzazione automatica dei documenti audio
    in AISV 2007, 4th Conference of Associazione Italiana di Scienze della Voce, "“La Fonetica Sperimentale - Metodo e Applicazioni”", Università della Calabria, Arcavacata di Rende (CS), 3-6 Dicembre 2007
    (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#autori
  • Graziano Tisato, Piero Cosi, Isabella Gagliardi (literal)
Pagina inizio
  • 83 (CD 481) (literal)
Pagina fine
  • 84 ( CD 500) (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#altreInformazioni
  • Abstract Book & CD-Rom Proceedings of AISV 2007, 4th Conference of Associazione Italiana di Scienze della Voce, \"“La Fonetica Sperimentale - Metodo e Applicazioni”\", 3-6 Dicembre 2007, Università della Calabria, Arcavacata di Rende (CS), EDK Editore s.r.l., Padova, 2008, 481-500. (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#citta
  • Padova (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#url
  • http://www.linguistica.unical.it/aisv2007/programma.htm (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#titoloVolume
  • Abstract Book & CD-Rom Proceedings of AISV 2007, 4th Conference of Associazione Italiana di Scienze della Voce, “La Fonetica Sperimentale - Metodo e Applicazioni”, 3-6 Dicembre 2007, Università della Calabria, Arcavacata di Rende (CS) (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#volumeInCollana
  • 4 - 2007 (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#autoriCuratela
  • Tisato G., Cosi P., Gagliardi I. (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#pagineTotali
  • 128 (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#descrizioneSinteticaDelProdotto
  • Abstract Book & CD-Rom Proceedings of AISV 2007, 4th Conference of Associazione Italiana di Scienze della Voce, “La Fonetica Sperimentale - Metodo e Applicazioni”, 3-6 Dicembre 2007, Università della Calabria, Arcavacata di Rende (CS), EDK Editore s.r.l., Padova, 2008, 481-500. (literal)
Note
  • P (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#affiliazioni
  • Graziano Tisato, Piero Cosi ISTC CNR, UOS Padova, Padova Italy Istituto di Scienze e Tecnologie della Cognizione del CNR Via Martiri della Libertà, 2 - 35127 Padova, Italia Isabella Gagliardi Istituto per le Tecnologie della Costruzione del CNR Via Bassini 15 - 20133 Milano, Italia ISTC (sede di Padova) Istituto per le Tecnologie della Costruzione del CNR (gagliardi@itc.cnr.it) (literal)
Titolo
  • Sviluppo di un sistema di keyword spotting per l’indicizzazione automatica dei documenti audio (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#inCollana
  • Abstract Book & CD-Rom Proceedings of AISV 2007 (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#isbn
  • 978-88-6368-046-1 (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#autoriVolume
  • Luciano Romito, Vincenzo Galatà, Rosita Lio (literal)
Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#curatoriVolume
  • Luciano Romito, Vincenzo Galatà, Rosita Lio (literal)
Abstract
  • L'applicazione del Keyword Spotting (KWS) presentata in questo lavoro rientra nel campo più generale dell'Information Retrieval (IR), e in quelli più specifici dello Spoken Document Retrieval (SDR), dell'Automatic Speech Recognition (ASR) e del Large Vocabulary Continous Speech Recognition (LVCSR). Il Keyword Spotting è sostanzialmente un processo di speech-to-text del tutto simile al riconoscimento del parlato, in questo caso limitato solo all'individuazione di determinate parole chiave all'interno di un flusso audio continuo. Il campo applicativo del KWS va dall'indicizzazione dei documenti audio, alla loro categorizzazione, ai sistemi di comando vocale, al rilevamento di particolari eventi, alla consultazione vocale delle basi dati, ad esempio per i motori di ricerca del Web, ecc. L'insieme delle applicazioni del KWS è anche sommariamente definito come Speech Analytics. In generale, il KWS può rappresentare un valido aiuto nell'interazione uomo-macchina, permettendo l'uso del linguaggio naturale nella comunicazione. Lo sviluppo e il miglioramento delle tecniche di riconoscimento del parlato e del KWS, assieme con la riduzione del tempo di elaborazione, sceso ormai al di sotto del tempo reale, ha esteso il campo applicativo dell'IR, in passato limitato ai documenti testuali, anche ai documenti audio. Per dare un'idea del progresso ottenuto, mentre nel 1997, con un database di addestramento di 150 ore di parlato, si riusciva ad ottenere un errore sul riconoscimento delle parole cercate del 22%, già nel 2004 con corpora molto più grossi si scendeva al 9-10%. La sfida attuale riguarda le tipologie di parlato che tradizionalmente ottengono i risultati peggiori, e cioè: o Parlato rumoroso (telefonia, conferenze, ecc.). o Parlato conversazionale. o Variabilità di stili e accento dei parlatori. Per quanto riguarda il Keyword Spotting, l'estrazione di determinate parole chiave può essere il primo passo di procedure di elaborazione tipiche dell'IR, che sono tradizionalmente basate sul testo, per ottenere le informazioni volute. In certe applicazioni, in effetti, può essere di maggior utilità estrarre la presenza di parole significative dal punto di vista semantico, piuttosto che ricavare l'intera sequenza del parlato, in modo da lanciare una azione appropriata. In questi casi, l'interesse è dato dalla velocità con cui si ottiene la risposta ad una interrogazione. Si tenga comunque presente che la velocità di elaborazione del KWS non è attualmente molto diversa da quella del riconoscimento del parlato continuo. Una obiezione a questo approccio potrebbe essere quella che gli ASR non sono infallibili e sfornano un gran numero di parole errate, che possono avere una qualche parentela fonetica con l'originale. Si potrebbe pensare che lo scambio di parole nel processo di Keyword Spotting possa pregiudicare il funzionamento di un sistema di IR, che dipende forzatamente dalla correttezza delle stesse. La scoperta, per certi versi sorprendente, fatta in questi ultimi anni è che l'influenza di questi errori sulle prestazioni complessive di un sistema di IR è molto limitata per la naturale ridondanza delle parole chiave relative ad un certo argomento. In effetti, è molto improbabile che tutte le occorrenze di una certa parola o dell'insieme delle parole chiave siano contemporaneamente scambiate con parole errate o semplicemente ignorate. Ad esempio, con una percentuale di parole errate (WER) che passi dallo 0% al 40%, l'efficacia del sistema IR nell'individuare un documento secondo certi criteri diminuisce solo del 10% [Ng, 2000], [Allan, 2002]: si veda, ad esempio, gli esperimenti fatti dal 1997 (TREC-6) al 2000 (TREC-9) dalla NIST Text REtrieval Conference (TREC) oppure nel 1998 dalla Topic Detection and Tracking (TDT). Questo spiega l'interesse che può rivestire l'utilizzo del Keyword Spotting nel campo dell' Information Retrieval. La relazione si articola in questi argomenti: o Introduzione al Keyword Spotting (Cap. 2) o Possibili applicazioni (Cap. 3) o Architetture implementate in questo lavoro e che si basano sull'azione contemporanea di due canali di riconoscimento (Cap. 4): o Il primo è un tipico ASR basato su un Modello Acustico (AM) e su un Modello Statistico del Linguaggio (LM). o Il secondo implementa una Grammatica a Stati Finiti (GSF), che non necessita della modellazione di un LM e permette la ricerca di una parola qualsiasi. o Misure di valutazione della performance di un sistema di WKS (Cap. 5). o Le caratteristiche dell'interfaccia grafico realizzato, per permettere la configurazione in una forma interattiva e rapida dei parametri dell'ASR utilizzato (Sonic - CSLR dell'Università del Colorado), la visualizzazione e la verifica immediata dei risultati della ricerca delle parole (Cap. 6). o La valutazione dei risultati ottenuti, che nel caso del Keyword Spotting presenta un certo grado di complessità, dal momento che dipendono dai documenti scelti per il test e dalla velocità che si vuole imporre all'ASR. Sui test disponibili, i risultati della precisione delle parole riconosciute correttamente (60%) va giudicato con una certa indulgenza, considerando che si è utilizzato in questa prima fase del lavoro un Modello Acustico, speaker independent, ricavato da un corpus (APASCI) non conversazionale, e dunque non adatto ai documenti analizzati (Cap. 7-8). o Le prospettive future che prevedono fra l'altro l'addestramento di un Modello Acustico su parlato conversazionale, l'utilizzo di parser semantici, l'uso di tecniche di adattamento (Vocal Tract Length Normalization, Structured Maximum a Posterior Linear Regression, ecc.), dovrebbero contribuire a migliorare sensibilmente le prestazioni dell'ASR (Cap. 9). (literal)
Editore
Prodotto di
Autore CNR
Insieme di parole chiave

Incoming links:


Autore CNR di
Prodotto
Editore di
Insieme di parole chiave di
data.CNR.it