http://www.cnr.it/ontology/cnr/individuo/prodotto/ID93568
Confronto tra diverse tecniche di conversione per la sintesi TTS delle emozioni (Contributo in atti di convegno)
- Type
- Label
- Confronto tra diverse tecniche di conversione per la sintesi TTS delle emozioni (Contributo in atti di convegno) (literal)
- Anno
- 2006-01-01T00:00:00+01:00 (literal)
- Alternative label
Nicolao M., Drioli C., Cosi P., (2006)
Confronto tra diverse tecniche di conversione per la sintesi TTS delle emozioni
in Scienze Vocali e del Linguaggio Metodologie di Valutazione e Risorse Linguistiche - AISV 2006, 3rd Conference of Associazione Italiana di Scienze della Voce, Pantè di Povo - TRENTO, 29-30 Novembre - 1 Dicembre 2006
(literal)
- Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#autori
- Nicolao M., Drioli C., Cosi P., (literal)
- Pagina inizio
- Pagina fine
- Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#altreInformazioni
- Nicolao M., Drioli C., Cosi P.
Confronto tra diverse tecniche di conversione per la sintesi TTS delle emozioni
in Giordani V., Bruseghini V., Cosi P. (editors)
Abstract Book & CD-Rom Proceedings of AISV 2006, 3rd Conference of Associazione Italiana di Scienze della Voce, \"Scienze Vocali e del Linguaggio Metodologie di Valutazione e Risorse Linguistiche\"
Pantè di Povo TRENTO
29-30 Novembre - 1 Dicembre 2006
EDK Editore s.r.l.
Padova, 2007
pp. 275-291 (51).
Descrizione sintetica del prodotto: Nel presente lavoro vengono descritti gli sviluppi delle tecniche per la creazione di una funzione che converte un segnale vocale neutro in uno caratterizzato emotivamente, basate su quanto già sviluppato in precedenti lavori (Nicolao et alii, 2005; Nicolao et alii, 2006). (literal)
- Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#url
- http://aisv2006.fbk.eu/ (literal)
- Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#titoloVolume
- Scienze Vocali e del Linguaggio Metodologie di Valutazione e Risorse Linguistiche - AISV 2006, 3rd Conference of Associazione Italiana di Scienze della Voce (literal)
- Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#numeroVolume
- Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#note
- Nicolao M., Drioli C., Cosi P., Confronto tra diverse tecniche di conversione per la sintesi TTS delle emozioni, in Giordani V., Bruseghini V., Cosi P. (editors), Abstract Book & CD-Rom Proceedings of AISV 2006, 3rd Conference of Associazione Italiana di Scienze della Voce, \"Scienze Vocali e del Linguaggio Metodologie di Valutazione e Risorse Linguistiche\", Pantè di Povo TRENTO, 29-30 Novembre - 1 Dicembre 2006, EDK Editore s.r.l., Padova, 2007, pp. 275-291 (51). (literal)
- Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#pagineTotali
- Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#descrizioneSinteticaDelProdotto
- Nel presente lavoro vengono descritti gli sviluppi delle tecniche per la creazione di una funzione che converte un segnale vocale neutro in uno caratterizzato emotivamente, basate su quanto già sviluppato in precedenti lavori (Nicolao et alii, 2005; Nicolao et alii, 2006). (literal)
- Note
- Google B (literal)
- P (literal)
- Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#affiliazioni
- ISTC CNR, UOS Padova
Istituto di Scienze e Tecnologie della Cognizione
Consiglio Nazionale delle Ricerche
Unità Organizzativa di Sipporto di Padova
via Martiri della Libertà, 2
35137 Padova, Italia (literal)
- Titolo
- Confronto tra diverse tecniche di conversione per la sintesi TTS delle emozioni (literal)
- Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#isbn
- 978-88-95112-69-5 (literal)
- Http://www.cnr.it/ontology/cnr/pubblicazioni.owl#curatoriVolume
- Giordani V., Bruseghini V., Cosi P. (literal)
- Abstract
- CONFRONTO TRA DIVERSE TECNI
CHE DI CONVERSIONE PER
LA SINTESI TTS DELLE EMOZONI
Mauro Nicolao, Carlo Drioli, Piero Cosi
Istituto di Scienze e Tecnologie della Cognizione - Sede di Padova \"Fonetica e Dialettologia\"
Consiglio Nazionale delle Ricerche, via Martiri della Libertà, 2 - 35127 Padova, Italia
nicolao@pd.istc.cnr.it
,
drioli@pd.istc.cnr.it
,
cosi@pd.istc.cnr.it
SOMMARIO
Nel presente lavoro vengono descritti gli sviluppi delle tecniche per la creazione di
una funzione che converte un segnale vocale neutro in uno caratterizzato emotivamente,
basate su quanto già sviluppato in precedenti lavori (Nicolao et alii, 2005; Nicolao et alii,
2006).
Sono stati investigati numerosi metodi per creare questa funzione e si è cercato di
stabilire l'efficienza delle diverse trasformazioni, attraverso dei criteri oggettivi (distanza di
Itakura-Saito) e soggettivi (test percettivi).
Tutte le funzioni sviluppate si basano su un approccio di tipo statistico. Nello
specifico, per descrivere lo spazio acustico del segnale vocale neutro vengono utilizzati sia
modelli a mistura di funzioni gaussiane (GMM), sia catene di Markov nascoste (HMM).
E' stata valutata anche la possibilità di applicare le funzioni di conversione in vari
punti del sistema: o come semplice
post processing
del segnale vocale neutro o agendo
direttamente su un database di difoni utilizzato da un sintetizzatore vocale.
I segnali di riferimento per l'allenamento dei modelli statistici sono ricavati da due
database di segnali vocali creati
ad hoc.
Uno è stato registrato con lo scopo di raccogliere il
materiale per costruire una voce per un sintetizzatore a concatenazione di difoni (MBROLA
o SMS). Si ipotizza che questo insieme di file audio sia privo di caratterizzazione emotiva.
Lo stesso parlatore, ha inoltre registrato un database di file audio cercando di fornire ad essi
una forte componente emotiva (l'emozione utilizzata in questo lavoro è la
collera
).
Da questi insiemi, tramite un processo di
copy synthesis,
si sono ottenuti due
corpora
perfettamente allineati per quanto riguarda durate, intonazione e fonemi pronunciati. Lo
studio si è potuto quindi focalizzare sulla modellizzazione delle sole differenze provocate al
segnale dall'emozione presente.
Lo spazio acustico del segnale sintetizzato è stato diviso in classi omogenee e, ad
ognuna, è stata associata una diversa funzione di trasformazione. Il nostro metodo è, quindi,
costituito da 34 funzioni, specializzate per ogni fonema.
In Tabella 1 sono elencati le differenze progettuali che differenziano i segnali
analizzati nel progetto. (literal)
- Editore
- Prodotto di
- Autore CNR
- Insieme di parole chiave
Incoming links:
- Autore CNR di
- Prodotto
- Editore di
- Insieme di parole chiave di