Knowledge extraction and representation learning for music recommendation and classification

Author

Oramas Martín, Sergio

Director

Serra, Xavier

Date of defense

2017-11-29

Pages

177 p.



Department/Institute

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

Doctorate programs

Programa de doctorat en Tecnologies de la Informació i les Comunicacions

Abstract

In this thesis, we address the problems of classifying and recommending music present in large collections. We focus on the semantic enrichment of descriptions associated to musical items (e.g., artists biographies, album reviews, metadata), and the exploitation of multimodal data (e.g., text, audio, images). To this end, we first focus on the problem of linking music-related texts with online knowledge repositories and on the automated construction of music knowledge bases. Then, we show how modeling semantic information may impact musicological studies and helps to outperform purely text-based approaches in music similarity, classification, and recommendation. Next, we focus on learning new data representations from multimodal content using deep learning architectures, addressing the problems of cold-start music recommendation and multi-label music genre classification, combining audio, text, and images. We show how the semantic enrichment of texts and the combination of learned data representations improve the performance on both tasks.


En esta tesis, abordamos los problemas de clasificar y recomendar música en grandes colecciones, centrándonos en el enriquecimiento semántico de descripciones (biografías, reseñas, metadatos), y en el aprovechamiento de datos multimodales (textos, audios e imágenes). Primero nos centramos en enlazar textos con bases de conocimiento y en su construcción automatizada. Luego mostramos cómo el modelado de información semántica puede impactar en estudios musicológicos, y contribuye a superar a métodos basados en texto, tanto en similitud como en clasificación y recomendación de música. A continuación, investigamos el aprendizaje de nuevas representaciones de datos a partir de contenidos multimodales utilizando redes neuronales, y lo aplicamos a los problemas de recomendar música nueva y clasificar géneros musicales con múltiples etiquetas, mostrando que el enriquecimiento semántico y la combinación de representaciones aprendidas produce mejores resultados.

Keywords

Music information retrieval; Recommender systems; Natural language processing; Deep learning; Musicology; Classification; Machine learning; Representation learning; Information extraction; Música; Sistemas de recomendación; Procesado del lenguaje natural; Aprendizaje profundo; Musicología; Clasificación; Aprendizaje automático; Extracción de información

Subjects

62 - Engineering. Technology in general

Documents

tso.pdf

6.185Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)