Significado, distribución y frecuencia de la categoría preposicional en español. Una aproximación computacional

dc.contributor
Universitat de Barcelona. Departament de Filologia Catalana i Lingüística General
dc.contributor.author
Reina González, Francesc
dc.date.accessioned
2021-03-11T09:55:01Z
dc.date.available
2021-03-11T09:55:01Z
dc.date.issued
2020-07-16
dc.identifier.uri
http://hdl.handle.net/10803/671085
dc.description.abstract
La categoría preposicional ha sido, tradicionalmente, una clase de palabra provista de rasgos lingüísticos y conductas gramaticales controvertidas. En la tesis, Significado, distribución y frecuencia de la categoría preposicional del español. Una aproximación computacional, se examina la naturaleza de esa controversia a la luz de una metodología cuantitativa, computacional y de lingüística de corpus. La brecha más inexplicada en la historia de su análisis gramatical ha sido cómo identificar su significado. Con frecuencia las nociones descriptivas sobre la semántica de la preposición han sido observadas como subsidiarias de su papel sintáctico, vía caso o asignación de papeles temáticos. Este hecho, sin embargo, no es más que el reconocimiento de que su significado incide, también, en su tarea global dentro de la gramática. Desde una concepción neodistribucionalista, según la cual el significado de las piezas o elementos lingüísticos se encuentra en su distribución contextual, la hipótesis que se plantea es que esa expresión semántica de las preposiciones en español se produce de manera gradual. La denominada Hipótesis Gradual del Significado, aplicada a la categoría preposicional en español, nos permite establecer subclases preposicionales, desde la funcionalidad hasta la lexicidad, pasado por clases intermedias como semifuncionales y semiléxicas. La justificación empírica de la Hipótesis Gradual del Significado se realiza a partir de cuatro experimentos. El primero de ellos se inserta en la metodología del aprendizaje automático (machine learning). Para ello, y usando la técnica del clustering, observamos un conjunto de 79.097 tripletas de la forma X – P – Z, donde P es una preposición del español –basadas en sintagmas preposicionales complementos-. Estas tripletas dependen de una serie de verbos de movimiento del español para las preposiciones a, hacia y hasta extraídas de cuatro corpus lingüísticos muy reconocidos del español. Una vez obtenidas las agrupaciones automáticas se evalúan porcentualmente a partir de la coincidencia entre las predicciones del anotador humano –las clases preposicionales sugeridas- y de la máquina –los clusters-. En el segundo y el tercer experimentos utilizamos otra metodología y acudimos a la medición de la entropía –magnitud de la Teoría de la Información-. En el segundo clasificamos los nombres de 3.898 tripletas que dependen de una serie de verbos del español que representan la mayoría de campos semánticos; y en el tercero son 3903 que complementan a otros nombres. Esta clasificación de los nombres se realiza a partir de una propuesta de seis tipos de categorías semánticas: Animado, Inanimado, Entidad abstracta, Locativo, Temporal y Evento. Una vez clasificados los nombres se mide su organización entrópica y se verifica que existe una correlación entre el grado de entropía y la clase preposicional: a mayor entropía mayor significado. El cuarto experimento parte del uso preposicional. A partir de un test de 90 respuestas con las clases preposicionales de la hipótesis se recogen las respuestas de 366 participantes y se analiza el grado de variación de esas respuestas según la clase preposicional. De nuevo volvemos a usar la entropía como índice de identificación del significado. Sometemos los resultados a ciertas pruebas de control estadístico para verificar la fiabilidad de las muestras, de la significancia y de la coincidencia entre observadores (coeficiente kappa de Cohen). El balance de los cuatro experimentos –a través de los resultados- es favorable a la predicción de la hipótesis. Asimismo, la diversidad de herramientas de análisis es una forma metodológicamente robusta para la investigación y sus conclusiones. Finalmente, se indica que la hipótesis abre perspectivas de futuro en áreas como el contraste interlingüístico –de familias tipológicamente diversas en la expresión adposicional-, o la afasiología como disciplina que se interroga por las relaciones entre errores y valores gramaticales.
en_US
dc.description.abstract
The prepositional category has traditionally been a word group endowed controversial traits concerning both its linguistic features and its grammatical behaviors. In this thesis the controversy is examined from a quantitative, computational and linguistic methodology point of wiew. The most unexplained gap in the story of this difficulty of analysis lies in the fact of how its meaning can be identified. From a neo-distributionalism conception, according to which the meaning of the linguistic pieces is in their contextual distribution, the hypothesis that arises is that this semantic expression of the prepositions in Spanish is gradual. The so-called Gradual Meaning Hypothesis establishes four prepositional subclasses, from functional to lexical, through intermediate phases such as semi-functional and semi-lexical. The empirical justification of the Gradual Hypothesis of Meaning is performed with four experiments. The first one experiment is inserted in the machine learning methodology. To do this, and using the clustering technique, we observed a set of 79,097 triplets of the form X - P - Z, where P is a preposition of Spanish - based on complementary prepositional phrases. They are triplets with the prepositions a, hacia and hasta of movement verbs, and they are extracted from four well-known linguistic corpus of Spanish. Once the automatic groupings have been obtained, we indicate to what extent, the percentage between the predictions of the human scorer - the suggested prepositional classes - and the machine - the clusters - are confirmed. In the second and third experiments, we changed our methodology and turned to the measurement of entropy –variable in Information Theory-. In the second onewe classify the names of 3,898 triplets that depend on verbs that appear on most semantic fields in Spanish; and in the third one we classify 3903 triplets that complement other names. This name classification is based on a proposal of six types of semantic categories: Animate, Inanimate, Abstract Entity, Locative, Temporary and Event. Once the names are classified, their entropic organization is measured and it is verified that there is a correlation between the degree of entropy and the prepositional class: the greater the entropy, the greater the meaning. The fourth experiment starts with prepositional use. From a test the degree of variation of these responses is analyzed according to the prepositional class. Again we use entropy as an index of identification of meaning. The balance of the four experiments - through the results - is favorable to the prediction of the hypothesis. The diversity of analysis tools is a methodologically robust way for the research and its conclusions.
en_US
dc.format.extent
357 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
spa
en_US
dc.publisher
Universitat de Barcelona
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Lingüística computacional
en_US
dc.subject
Computational linguistics
en_US
dc.subject
Corpus (Lingüística)
en_US
dc.subject
Corpora (Linguistics)
en_US
dc.subject
Preposicions
en_US
dc.subject
Preposiciones
en_US
dc.subject
Prepositions
en_US
dc.subject.other
Ciències Humanes i Socials
en_US
dc.title
Significado, distribución y frecuencia de la categoría preposicional en español. Una aproximación computacional
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
81
en_US
dc.contributor.director
Castellón Masalles, Irene
dc.contributor.director
Padró Cirera, Lluís
dc.contributor.tutor
Castellón Masalles, Irene
dc.embargo.terms
cap
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess


Documents

FRG_TESIS.pdf

3.141Mb PDF

This item appears in the following Collection(s)