A framework to operationalize and automate the data integration lifecycle

dc.contributor
Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
dc.contributor.author
Flores Herrera, Javier de Jesús
dc.date.accessioned
2025-09-24T06:20:42Z
dc.date.available
2025-09-24T06:20:42Z
dc.date.issued
2025-06-16
dc.identifier.uri
http://hdl.handle.net/10803/695267
dc.description.abstract
(English) Data plays a key role in today’s world. Many organizations collect and store massive amounts of data from many different data sources. As a result, these data collections show a diversity in structure and semantics that grows as the data sources expand and evolve. These factors challenge traditional data management methods, which depend on fixed structures and stable conditions. There is a mismatch between old assumptions and new realities, where it is not enough to just collect data and run conventional tools. Instead, we must rethink how we integrate data to support high variety, handle large-scale collections, and accommodate new available data. This PhD thesis proposes innovative and advanced techniques to support and automate the data integration lifecycle. First, we describe how to represent and standardize data sources using graph-based schemas. These schemas provide a solid foundation for all steps of the data integration lifecycle. Next, we introduce an integration method that leverages graph-based schemas to add new data incrementally without disrupting existing integration structures. This approach ensures that data integration remains flexible and scalable as organizations grow. We also help users find the right datasets to integrate. By focusing on data discovery, we reduce the time spent exploring irrelevant data sources and suggest relevant ones for integration. To this end, we focus first on facilitating the discovery of joinable attributes among datasets. We propose a new qualitative metric and use data profiles and learning models to decide which attributes are worth joining. To further enhance data discovery, we introduce contextual pre-filtering. Using data profiles and graph-based schemas, we can focus on promising datasets before applying data discovery tools. This pre-filtering step not only boosts the accuracy of existing data discovery tools but also optimizes their performance by narrowing the search space. In summary, this thesis helps bridge the gap between conventional data methods and modern, diverse data ecosystems. The results contribute to the field of data integration by offering scalable and automated solutions that match the changing needs of data integration today.
dc.description.abstract
(Català) Les dades tenen un paper fonamental en el món actual. Moltes organitzacions recopilen i emmagatzemen grans volums de dades procedents de diverses fonts. Aquestes fonts poden variar tant en l’estructura com en la modelització de conceptes i van creixent i evolucionant a mesura que s’hi afegeixen noves fonts de dades. Això posa a prova els mètodes clàssics de gestió de dades, que depenen d’estructures fixes i condicions estables. Avui, ja no n’hi ha prou de reunir dades i emprar eines convencionals. Cal replantejar la manera d’integrar les dades per gestionar-ne la gran varietat, tractar grans volums i incorporar noves fonts a mesura que s’integren. Aquesta tesi proposa tècniques per automatitzar el cicle de vida de la integració de dades. Primer, mostrem com representar i estandarditzar les fonts mitjançant esquemes basats en graf. Aquests esquemes serveixen de fonament sòlid per a cada pas de la integració. Tot seguit, presentem un mètode que aprofita aquests esquemes per afegir noves fonts de manera incremental sense alterar les estructures existents, tot mantenint flexibilitat i escalabilitat a mesura que les organitzacions creixen. També fem més àgil la cerca de conjunts de dades que valgui la pena integrar. En centrar-nos en el descobriment de dades, reduïm el temps destinat a explorar fonts irrellevants i proposem les més adequades. Per fer-ho, introduïm una mètrica qualitativa i fem servir perfils de dades i models d’aprenentatge per decidir quins atributs cal unir. A més, incorporem un prefiltrat contextual que detecta els conjunts de dades més prometedors abans d’aplicar eines de descobriment, cosa que millora la precisió i redueix la càrrega computacional. En resum, aquesta tesi escurça la distància entre els mètodes tradicionals i els entorns moderns de dades. Ofereix solucions escalables i automatitzades que s’adapten a les necessitats canviants de la integració de dades.
dc.description.abstract
(Español) Los datos desempeñan un papel fundamental en el mundo actual. Muchas organizaciones recopilan y almacenan grandes volúmenes de datos desde diversas fuentes. Estas fuentes pueden variar en estructura y modelado de conceptos que van creciendo y evolucionando a medida que más fuentes de datos son integradas. Esto pone a prueba los métodos clásicos de gestión de datos, que dependen de estructuras fijas y condiciones estables. Hoy en día, no basta con reunir datos y usar herramientas convencionales. En su lugar, debemos replantearnos cómo integrar datos para manejar una alta variedad, gestionar grandes volúmenes y acomodar nuevas fuentes a medida que se integran. Esta tesis propone técnicas para automatizar el ciclo de vida de la integración de datos. Primero, mostramos cómo representar y estandarizar las fuentes con esquemas basados en grafos. Estos esquemas sirven de base sólida para cada paso de la integración. Luego, presentamos un método que emplea dichos esquemas para añadir nuevas fuentes de forma incremental sin afectar las estructuras existentes, manteniendo flexibilidad y escalabilidad a medida que las organizaciones crecen. También agilizamos la búsqueda de conjuntos de datos que valga la pena integrar. Al centrarnos en el descubrimiento de datos, reducimos el tiempo dedicado a explorar fuentes irrelevantes y sugerimos las más adecuadas. Para ello, introducimos una métrica cualitativa y usamos perfiles de datos y modelos de aprendizaje para decidir qué atributos se deben unir. Además, aportamos un prefiltrado contextual que identifica los conjuntos de datos más prometedores antes de aplicar herramientas de descubrimiento, lo que mejora la precisión y reduce la carga computacional. En resumen, esta tesis acorta la brecha entre los métodos tradicionales y los entornos modernos de datos. Ofrece soluciones escalables y automatizadas que se adaptan a las cambiantes necesidades de la integración de datos.
dc.format.extent
177 p.
dc.language.iso
eng
dc.publisher
Universitat Politècnica de Catalunya
dc.rights.license
ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Data Integration
dc.subject
Data Discovery
dc.subject
Knowledge Graphs
dc.subject
Data Wrangling
dc.subject.other
Àrees temàtiques de la UPC::Informàtica
dc.title
A framework to operationalize and automate the data integration lifecycle
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.date.updated
2025-09-24T06:20:41Z
dc.subject.udc
004 - Informàtica
dc.contributor.director
Nadal Francesch, Sergi
dc.contributor.director
Romero Moral, Óscar
dc.embargo.terms
cap
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.identifier.doi
https://dx.doi.org/10.5821/dissertation-2117-442278
dc.description.degree
DOCTORAT EN COMPUTACIÓ (Pla 2012)


Documentos

TJJFH1de1.pdf

13.07Mb PDF

Este ítem aparece en la(s) siguiente(s) colección(ones)