Strategies for improving resilience in distributed communication systems

Author

Llorens Carrodeguas, Alejandro

Director

Cervelló Pastor, Cristina

Date of defense

2023-01-26

Pages

140 p.



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Enginyeria Telemàtica

Doctorate programs

DOCTORAT EN ENGINYERIA TELEMÀTICA (Pla 2013)

Abstract

(English) With the development of industry and society, new verticals have emerged such as Industry 4.0, cooperative sensing, and massive IoT. These verticals require network robustness and availability to maintain high levels of QoS, just as 5G and beyond networks must guarantee to the end-users. In this regard, several technologies have been identified by network operators and academic institutions as crucial pillars in deploying these networks. More specifically, due to their advantages, SDN, NFV, and MEC are likely to make the deployment of 5G and beyond networks easier for operators. Nevertheless, network resilience and robustness are not guaranteed using these technologies. The literature addressing resilient and fault-tolerant strategies is focused on proposing unique mechanisms to be applied in each of the above paradigms. Furthermore, the proposed approaches are mainly related to communication mechanisms used in distributed domains to improve network scalability and resilience. Thus, they lack other perspectives and factors that can also impact the robustness and fault tolerance of the network, such as the VNF allocation in resource-constrained environments. This thesis therefore focuses on designing and implementing novel strategies to improve network resilience and fault tolerance in SDN/NFV environments through communication and event-allocation approaches. In particular, the proposed communication mechanism, different from existing related works, guarantees network information exchange among control elements of both systems. This proposal enables auto-discovery and failure awareness, thus ensuring the necessary dynamism in the next-generation networks. Additionally, the control elements can improve their decision-making process by considering information external to the region controlled by them. Then other controllers’ control and management policies, such as load-balancing methods, can be improved by considering this newly available information. This thesis also introduces the VNF management and allocation process as factors that can impact network resilience when analyzing the VNF’s characteristics and its deployments in resource-constrained environments. For the former case, we analyze the consequences of applying load-balancing and auto-scaling mechanisms over a cluster of transparent VNFs. Due to the particularities of this kind of virtual function, network loops may appear when applying the above mechanisms without considering their characteristics. Therefore, this study employs an SDN-based solution to address the problems of managing a cluster of these VNFs. The latter case explores the deployment of VNFs in resource-constrained environments like single-board computers (SBCs), which have gained attention as computing infrastructure close to the end-users. The specifications of this scenario (i.e., limited computational resources and battery-powered) entail challenges since existing platforms to orchestrate and manage VNFs do not consider energy levels during their placement decisions and, consequently, are not optimized for energy-constrained environments. Thus, an energy-aware scheduler is presented to deploy and manage VNFs in an SBC cluster. The proposed scheduler reduces the battery consumption of the cluster’s nodes, thus improving the system’s resilience. To enhance the proposed scheduler’s scope, an intelligent global controller is described to deploy events in a multi-cluster edge system. This approach integrates the implemented communication mechanism to gather the node’s information to select the best participants when deploying virtual functions. This solution incorporates a machine learning method to guarantee cost-effective resource utilization and increase the system’s lifetime. In general, the approaches proposed in this thesis have been evaluated in real testbeds using leading technologies. The results have proved the applicability of the proposed strategies to improve network resilience.


(Català) Amb el desenvolupament de la indústria i la societat, nous serveis han sorgit com ara la Indústria 4.0, la detecció cooperativa i l'IoT. Aquests serveis requereixen robustesa i disponibilitat de la xarxa per mantenir alts nivells de QoS, justament el que les noves generacions de xarxes han de garantir als usuaris. En aquest sentit, tecnologies com SDN, NFV i MEC han estat identificades com a pilars en el desplegament d'aquestes xarxes a causa dels avantatges que ofereixen. Tot i això, la resiliència i la tolerància a fallades no estan garantides amb aquestes tecnologies. La literatura que aborda estratègies resilients i tolerants a fallades s'enfoca a proposar mecanismes per ser aplicats a cadascun dels paradigmes anteriors. A més, els seus enfocaments estan relacionats amb els mecanismes de comunicació utilitzats en dominis distribuïts per millorar l'escalabilitat i la resiliència de la xarxa. Per tant, no tenen altres factors que també poden afectar la solidesa i la tolerància a fallades de la xarxa, com l'assignació de VNFs en entorns amb recursos limitats. Per tant, aquesta tesi s'enfoca a dissenyar i implementar noves estratègies per millorar la resiliència i la tolerància a errors en entorns SDN/NFV mitjançant mecanismes de comunicació i assignació d'esdeveniments. Específicament, el mecanisme de comunicació proposat, contrari a treballs existents, garanteix l'intercanvi d'informació de xarxa entre els controladors de tots dos sistemes. Aquesta proposta permet l'autodescobriment i la detecció de fallades, assegurant així el dinamisme necessari a les noves generacions de xarxes. Addicionalment, els elements de control poden millorar les seves decisions en considerar informació externa a la regió que ells controlen. Així, les polítiques de control i gestió d'altres controladors, com els balancejadors de càrrega, es poden millorar en considerar aquesta informació disponible. Aquesta tesi també presenta els processos de gestió i assignació de VNFs com a factors que poden afectar la resiliència de la xarxa quan s'analitzen les característiques de les VNFs i els seus desplegaments en entorns amb recursos limitats. El primer cas analitza les conseqüències d'aplicar mecanismes de balanceig de càrrega i autoescalat en un grup de VNF transparents. A causa de les particularitats d'aquestes funcions virtuals, poden aparèixer llaços a la xarxa quan s'apliquen els mecanismes anteriors sense considerar les característiques de les VNF. Per tant, aquest estudi proposa una solució basada en SDN per resoldre els problemes de gestionar aquestes VNF. El darrer cas explora el desplegament de VNFs en entorns amb recursos limitats, com ara els ordinadors de placa única (SBC). Les característiques d'aquest escenari, com són els recursos computacionals limitats i l'ús de bateries, impliquen desafiaments, ja que les plataformes existents per orquestrar i gestionar les VNF no consideren els nivells d'energia en les decisions d'ubicació. Per tant, no estan optimitzats per a entorns amb restriccions d'energia. És per això que presentem un planificador que considera l'energia per desplegar i administrar les VNFs en un clúster de SBC. La solució proposada redueix el consum de bateria en els nodes del clúster, millorant així la seva resiliència. Per millorar el planificador proposat, es descriu un controlador global intel·ligent per desplegar esdeveniments en un sistema perimetral de múltiples clústers. Aquesta solució integra el mecanisme de comunicació dissenyat per intercanviar la informació del node i així seleccionar-ne els millors per desplegar funcions virtuals. Aquesta proposta incorpora un mètode d'aprenentatge automàtic per garantir una utilització efectiva dels recursos i augmentar la vida útil del sistema. En general, les propostes d'aquesta tesi han estat avaluades en proves reals basades en tecnologies capdavanteres. Els resultats han demostrat l’aplicabilitat d’aquestes estratègies per millorar la robustesa de la xarxa.


(Español) Con el desarrollo de la industria y la sociedad, nuevos servicios como la Industria 4.0, la detección cooperativa y el IoT han surgido. Dichos servicios requieren robustez y disponibilidad de la red para mantener altos niveles de QoS, justo lo que las nuevas generaciones de redes deben garantizar a los usuarios. En este sentido, tecnologías como SDN, NFV y MEC han sido identificadas como pilares en el despliegue de estas redes debido a las ventajas que ofrecen. Sin embargo, la resiliencia y la tolerancia a fallos no están garantizadas con estas tecnologías. La literatura que aborda estrategias resilientes y tolerantes a fallos se enfoca en proponer mecanismos para ser aplicados en cada uno de los paradigmas anteriores. Además, sus enfoques están relacionados con los mecanismos de comunicación utilizados en dominios distribuidos para mejorar la escalabilidad y resiliencia de la red. Por lo tanto, carecen de otros factores que también pueden afectar la solidez y la tolerancia a fallos de la red, como la asignación de VNFs en entornos con recursos limitados. Por lo tanto, esta tesis se enfoca en diseñar e implementar nuevas estrategias para mejorar la resiliencia y la tolerancia a fallos en entornos SDN/NFV a través de mecanismos de comunicación y asignación de eventos. Específicamente, el mecanismo de comunicación propuesto, contrario a trabajos existentes, garantiza el intercambio de información de red entre los controladores de ambos sistemas. Esta propuesta permite el autodescubrimiento y la detección de fallos, asegurando así el dinamismo necesario en las nuevas generaciones de redes. Adicionalmente, los elementos de control pueden mejorar sus decisiones al considerar información externa a la región controlada por ellos. Así, las políticas de control y gestión de otros controladores, como los balanceadores de carga, se pueden mejorar al considerar esta información disponible. Esta tesis también presenta los procesos de gestión y asignación de VNFs como factores que pueden afectar la resiliencia de la red cuando se analizan las características de las VNFs y sus despliegues en entornos con recursos limitados. El primer caso analiza las consecuencias de aplicar mecanismos de balanceo de carga y autoescalado en un grupo de VNF transparentes. Debido a las particularidades de estas funciones virtuales, pueden aparecer lazos en la red cuando se aplican los mecanismos anteriores sin considerar las características de las VNFs. Por lo tanto, este estudio propone una solución basada en SDN para resolver los problemas de gestionar estas VNFs. El último caso explora el despliegue de VNFs en entornos con recursos limitados, como las computadoras de placa única (SBC). Las características de este escenario, como son los recursos computacionales limitados y el uso de baterías, implican desafíos pues las plataformas existentes para orquestar y gestionar las VNFs no consideran los niveles de energía en sus decisiones de ubicación. Por lo tanto, no están optimizados para entornos con restricciones de energía. Es por ello que presentamos un planificador que considera la energía para desplegar y administrar las VNFs en un clúster de SBC. La solución propuesta reduce el consumo de batería en los nodos del clúster, mejorando así su resiliencia. Para mejorar el planificador propuesto, se describe un controlador global inteligente para desplegar eventos en un sistema perimetral de múltiples clústeres. Esta solución integra el mecanismo de comunicación diseñado para intercambiar la información del nodo y así seleccionar los mejores para desplegar funciones virtuales. Esta propuesta incorpora un método de aprendizaje automático para garantizar una utilización efectiva de los recursos y aumentar la vida útil del sistema. En general, las propuestas de esta tesis han sido evaluadas en pruebas reales basadas en tecnologías punteras. Los resultados han demostrado la aplicabilidad de estas estrategias para mejorar la robustez de la red.

Keywords

DDS; DRL; Energy-efficient scheduler; MEC; NFV; Resilience; SBC; SDN; Transparent VNF

Subjects

621.3 Electrical engineering

Knowledge Area

Àrees temàtiques de la UPC::Enginyeria de la telecomunicació

Note

Tesi amb menció internacional

Documents

TALC1de1.pdf

10.85Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/

This item appears in the following Collection(s)