Reducing Label Effort with Deep Active Learning

Author

Zolfaghari Bengar, Javad

Director

Weijer, Joost van de

Raducanu, Bogdan

Date of defense

2021-12-20

Pages

124 p.



Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Abstract

Les xarxes neuronals convolucionals profundes (CNN) han aconseguit un rendi ment superior en moltes aplicacions de reconeixement visual, com la classificació, detecció i segmentació d’imatges. El entrenament de CNN profundes requereix grans quantitats de dades etiquetades, que tenen un alt cost i son laboriosos de recollir. L’aprenentatge actiu és un paradigma dirigit a reduir l’esforç d’anotació entrenant el model en mostres informatives i/o representatives seleccionades d’una manera activa. En aquesta tesi estudiem diversos aspectes de l’aprenentatge actiu, com ara la detecció d’objectes de vídeo per a sistemes de conducció autònoma, la classificació d’imatges en conjunts de dades balancejats i no balancejats i la incorporació de l’aprenentatge auto-supervisat en l’aprenentatge actiu. Descrivim breument el nostre enfocament en cadascuna d’aquestes àrees per reduir l’esforç d’etiquetatge. Al capítol dos introduïm un nou enfocament d’aprenentatge actiu per a la detecció d’objectes en vídeos aprofitant la coherència temporal. El nostre criteri es basa en el nombre estimat d’errors en termes de falsos positius i falsos negatius. A més, introduïm un conjunt de dades de vídeo sintètic, anomenat SYNTHIA-AL, especialment dissenyat per avaluar l’aprenentatge actiu per a la detecció d’objectes de vídeo en escenes de carretera. Finalment, mostrem que el nostre enfocament supera les línies de base d’aprenentatge actiu provades en dos conjunts de dades a l’exterior. En el següent capítol abordem el conegut problema de sobre confiança en les xarxes neuronals. Com a alternativa a la confiança en xarxa, proposem un nou mètode d’aprenentatge actiu basat en un criteri informatiu que captura la dinàmica d’aprenentatge de la xarxa neuronal amb una mètrica anomenada dispersió d’eti quetes. Aquesta mètrica és baixa quan la xarxa assigna constantment la mateixa etiqueta a la mostra durant el procés d’entrenament i alta quan l’etiqueta assigna da canvia amb freqüència. Mostrem que la dispersió d’etiquetes és un predictor prometedor de la incertesa de la xarxa i mostrem en dos conjunts de dades de referència que un algorisme d’aprenentatge actiu basat en la dispersió d’etiquetes obté resultats excel·lents. Al capítol quatre, abordem el problema del biaix de mostreig en mètodes d’a vii prenentatge actiu sobre conjunts de dades no balancejats. L’aprenentatge actiu s’estudia generalment en conjunts de dades balancejats on hi ha disponible la ma teixa quantitat d’imatges per classe. Tanmateix, els conjunts de dades del món real consisteixen de classes severament no balancejats, l’anomenada distribució de cua llarga. Argumentem que això complica encara més el procés d’aprenentatge actiu, ja que el conjunt de dades no balancejats pot donar lloc a classificadors subòptims. Per abordar aquest problema en el context de l’aprenentatge actiu, proposem un marc d’optimització general que tingui en compte explícitament el balanç de classe. Els resultats de tres conjunts de dades van mostrar que el mètode és general (es pot combinar amb la majoria dels algorismes d’aprenentatge actiu existents) i es pot aplicar de manera eficaç per augmentar el rendiment dels mètodes d’aprenentat ge actiu tant informatius com representatius. A més, demonstrem que també en conjunts de dades balancejats, el nostre mètode, en general, millora el rendiment. Un altre paradigma per reduir l’esforç d’anotació és l’aprenentatge auto-supervisat que aprèn d’una gran quantitat de dades sense etiquetar de manera no supervisa da i afina en poques mostres etiquetades. Els avenços recents en l’aprenentatge auto-supervisat han aconseguit resultats molt impressionants que rivalitzen amb l’aprenentatge supervisat en alguns conjunts de dades. En el darrer capítol ens cen trem en si l’aprenentatge actiu i l’aprenentatge auto-supervisat es poden beneficiar mútuament. Sobre els conjunts de dades per al reconeixement d’objectes, estudiem amb conjunts de dades etiquetades de diferents mides per a les avaluacions. Els nostres experiments revelen que l’aprenentatge auto- supervisat és notablement més eficient que l’aprenentatge actiu per reduir l’esforç d’etiquetatge, que per a un baix pressupost d’etiquetatge, l’aprenentatge actiu no ofereix cap benefici per a l’aprenentatge auto-supervisat i, finalment, la combinació d’aprenentatge actiu i auto-supervisat és útil quan el pressupost d’etiquetatge és elevat.


Deep convolutional neural networks (CNNs) have achieved superior performance in many visual recognition applications, such as image classification, detection and segmentation. Training deep CNNs requires huge amounts of labeled data, which is expensive and labor intensive to collect. Active learning is a paradigm aimed at reducing the annotation effort by training the model on actively selected informative and/or representative samples. In this thesis we study several aspects of active learning including video object detection for autonomous driving systems, image classification on balanced and imbalanced datasets and the incorporation of self-supervised learning in active learning. We briefly describe our approach in each of these areas to reduce the labeling effort. In chapter two we introduce a novel active learning approach for object de tection in videos by exploiting temporal coherence. Our criterion is based on the estimated number of errors in terms of false positives and false negatives. Ad ditionally, we introduce a synthetic video dataset, called SYNTHIA-AL, specially designed to evaluate active learning for video object detection in road scenes. Fi nally, we show that our approach outperforms active learning baselines tested on two outdoor datasets. In the next chapter we address the well-known problem of over confidence in the neural networks. As an alternative to network confidence, we propose a new informativeness-based active learning method that captures the learning dynamics of neural network with a metric called label-dispersion. This metric is low when the network consistently assigns the same label to the sample during the course of training and high when the assigned label changes frequently. We show that label dispersion is a promising predictor of the uncertainty of the network, and show on two benchmark datasets that an active learning algorithm based on label-dispersion obtains excellent results. In chapter four, we tackle the problem of sampling bias in active learning meth ods on imbalanced datasets. Active learning is generally studied on balanced datasets where an equal amount of images per class is available. However, real world datasets suffer from severe imbalanced classes, the so called long-tail distri bution. We argue that this further complicates the active learning process, since the iii imbalanced data pool can result in suboptimal classifiers. To address this problem in the context of active learning, we propose a general optimization framework that explicitly takes class-balancing into account. Results on three datasets show that the method is general (it can be combined with most existing active learning algo rithms) and can be effectively applied to boost the performance of both informative and representative-based active learning methods. In addition, we show that also on balanced datasets our method generally results in a performance gain. Another paradigm to reduce the annotation effort is self-training that learns from a large amount of unlabeled data in an unsupervised way and fine-tunes on few labeled samples. Recent advancements in self-training have achieved very im pressive results rivaling supervised learning on some datasets. In the last chapter we focus on whether active learning and self supervised learning can benefit from each other. We study object recognition datasets with several labeling budgets for the evaluations. Our experiments reveal that self-training is remarkably more efficient than active learning at reducing the labeling effort, that for a low labeling budget, active learning offers no benefit to self-training, and finally that the combination of active learning and self-training is fruitful when the labeling budget is high.

Keywords

Reconeixement visual; Reconocimiento visual; Visual recognition; Aprenentatge actiu profund; Aprendizaje activo profundo; Deep active learning; Detecció d’objectes de vídeo; Detección de objetos en video; Video object detection; Aprenentatge semisupervisat; Aprendizaje semi-supervisado; Semi-supervised learning; Conjunts de dades de desequilibri; Conjuntos de datos imbalanceados; Imbalance datasets; Aprenentatge autosupervisat; Aprendizaje auto-supervisado; Self-supervised learning

Subjects

004 - Computer science and technology. Computing. Data processing

Knowledge Area

Ciències Experimentals

Documents

jzb1de1.pdf

8.745Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/

This item appears in the following Collection(s)