Anàlisi discriminant discreta mitjançant suavització de les correspondències múltiples

Author

Pruñonosa Reverter, Jose Vicente

Director

Sendra Pina, Mario

Date of defense

2003-12-04

ISBN

8437058805

Legal Deposit

V-2655-2004



Department/Institute

Universitat de València. Departament d'Estadística i Investigació Operativa

Abstract

El punt de partida del mètode que es presenta en aquest treball és la suposició que les variables discretes procedeixen d'unes subjacents, mixtures de normals, que han estat "tallades" en intervals a cada marginal i permutades posteriorment.<br/><br/>D'aquesta manera podem considerar, com és habitual a la literatura, que els factors significatius afecten a la mitjana de les variables subjacents mentre que els no significatius determinen una dispersió gaussiana arreu dels valors centrals de classe. La discretització serà, al seu torn, producte bé de fenòmens d'acumulació-umbralització, típics de molt processos biològics, bé de la imprecisió inherent a l'aparell de mesura. <br/><br/>L'esforç es va centrar, com a conseqüència, en retrobar el més acuradament possible la distribució de probabilitat contínua subjacent i posteriorment aplicar una metodologia de discriminació amb variables contínues.<br/><br/>Per tal d'aconseguir aquest objectiu "reconstructor" , es van desenvolupar dues fases: A la primera, i mitjançant una anàlisi de correspondències múltiples convenientment adaptada a l'objectiu discriminant, se cercaren quantificacions que aproximessin les mitjanes de les cel·les i a la segona, emprant, un procediment de suavització basat en l'algorisme EM, es va completar la reproducció de la distribució subjacent aplicant una dispersió al voltant d'aquestes mitjanes.<br/><br/>Al Capítol 1 s'analitzen les definicions bàsiques de l'anàlisi discriminant i es fa una revisió dels mètodes existents amb l'objectiu esmentat.<br/><br/> El segon i el tercer capítol se centren a fer l'equivalent amb l'anàlisi de correspondències i els mètodes de suavització (fonamentalment "kernel" i EM) com a elements bàsics a combinar per tal d'aconseguir l'esmentada reconstrucció.<br/><br/> Al Capítol 4 es fa la proposta metodològica i es demostra el resultat que li dóna fonament matemàtic.<br/><br/> Finalment, al capítol 5, es discuteixin els resultats amb dades simulades i reals, arribant a les següents conclusions:<br/><br/>La prova del mètode amb dades simulades utilitzant un model de normals subjacents amb mitjana diferent per classe i variància comuna pot valorar-se com positiva ja que els seus resultats superen els altres procediments amb què s'ha comparat.<br/><br/>Es considera que aquests esperançadors resultats es deuen a la solidesa del resultat matemàtic provat al capítol 4, el qual ens garanteix que la reconstrucció de les dades subjacents contínues es realitza en la direcció correcta.<br/><br/>D'altra banda si la suposició d'una multinormal subjacent s'interpreta com el final d'un ampli ventall de processos investigadors quan finalment s'aconsegueix destriar la part rellevant de la que no ho és (en termes de distribució de probabilitat) no resulta sorprenent que un mètode basat en aquestes premisses obtingui bons resultats pràctics, tal i com succeeix als dos exemples reals, de molt diferent procedència, però d'una elevada complexitat, analitzats.


The basic supposition of the method is that the categorical variables come from underlying ones, mixtures of normals, discretized in permuted intervals at the marginals. The effort was directed in reproducing the more exactly possible underlying continuous probability distribution and later to apply a methodology of discrimination with continuous variables. In order to obtain this reconstruction, two phases were developed: In first, a multiple correspondence analysis, properly adapted to the discriminant objective, looked for quantifications, and secondly, a procedure of smoothing based on algorithm EM, complemented the reproduction applying a dispersion around these values. In Chapter 1 the basic definitions of the discriminant analysis are analyzed and the existing methods had been revised with the mentioned objective. The second and third chapter make the equivalent with the correspondence analysis and the methods of smoothing (Kernel and EM) like elements to combine to obtain the reconstruction. Chapter 4 makes the methodologic proposal and a generalization of Lancaster's theorem is demonstrated for its mathematical foundation. Finally, in chapter 5, the results with simulated and real data are discussed, reaching the following conclusions: The test of the method with underlying normal simulated data using a model with common variance by class was positive since the method improved the other procedures which it has been compared with. On the other hand if the multinormal supposition of an underlying variable is interpreted like the end of a research when finally we are able to separate the significants factors affecting the average whereas the nonsignificant ones determine a gaussian dispersion is not surprising that a method based on these premises obtains good practical results, as it happens in real complex examples analyzed.

Subjects

51 - Mathematics

Knowledge Area

Matemáticas

Documents

prunonosa.pdf

2.654Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)