Automatic assessment of singing voice pronunciation: a case study with Jingju music

Autor/a

Gong, Rong

Director/a

Serra, Xavier

Data de defensa

2018-11-23

Pàgines

235 p.



Departament/Institut

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

Programa de doctorat

Programa de doctorat en Tecnologies de la Informació i les Comunicacions

Resum

Online learning has altered music education remarkable in the last decade. Large and increasing amount of music performing learners participate in online music learning courses due to the easy-accessibility and boundless of time-space constraints. Singing can be considered the most basic form of music performing. Automatic singing voice assessment, as an important task in Music Information Retrieval (MIR), aims to extract musically meaningful information and measure the quality of learners' singing voice. Singing correctness and quality is culture-specific and its assessment requires culture-aware methodologies. Jingju (also known as Beijing opera) music is one of the representative music traditions in China and has spread to many places in the world where there are Chinese communities. Our goal is to tackle unexplored automatic singing voice pronunciation assessment problems in jingju music, to make the current eurogeneric assessment approaches more culture-aware, and in return, to develop new assessment approaches which can be generalized to other musical traditions.


El aprendizaje en línea ha cambiado notablemente la educación musical en la pasada década. Una cada vez mayor cantidad de estudiantes de interpretación musical participan en cursos de aprendizaje musical en línea por su fácil accesibilidad y no estar limitada por restricciones de tiempo y espacio. Puede considerarse el canto como la forma más básica de interpretación. La evaluación automática de la voz cantada, como tarea importante en la disciplina de Recuperación de Información Musical (MIR por sus siglas en inglés) tiene como objetivo la extracción de información musicalmente significativa y la medición de la calidad de la voz cantada del estudiante. La corrección y calidad del canto son específicas a cada cultura y su evaluación requiere metodologías con especificidad cultural. La música del jingju (también conocido como ópera de Beijing) es una de las tradiciones musicales más representativas de China y se ha difundido a muchos lugares del mundo donde existen comunidades chinas.Nuestro objetivo es abordar problemas aún no explorados sobre la evaluación automática de la voz cantada en la música del jingju, hacer que las propuestas eurogenéticas actuales sobre evaluación sean más específicas culturalmente, y al mismo tiempo, desarrollar nuevas propuestas sobre evaluación que puedan ser generalizables para otras tradiciones musicales.

Paraules clau

MIR; Music information retrieval; CompMusic; Data-driven; Computational model; Singing voice; Automatic assessment; Jingju; Beijing opera; Pronunciation; Syllable and phoneme segmentation; Mispronunciation detection; Pronunciation similarity; Deep learning; Neural networks; CNNs; RNNs; Siamese networks; Acoustic embedding,; Hidden Markov model; HMM; HSMM; Recuperación de información musical; Modelo computacional basado en datos; Voz de canto; Eevaluación automática; Pronunciación; Segmentación de sílabas y fonemas; Detección de falsa pronunciación; Similitud de pronunciación; Aprendizaje profundo; Redes neuronales; Redes neuronales recurrentes; Incrustación acústica; Modelo oculto de Markov

Matèries

62 - Enginyeria. Tecnologia

Documents

trg.pdf

4.619Mb

 

Drets

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

Aquest element apareix en la col·lecció o col·leccions següent(s)