Aproximación lingüística en el diseño de un corpus anotado en español sobre COVID-19 para sistemas de pregunta-respuesta

 

Guardado en:
Detalles Bibliográficos
Autor: Barboza Hidalgo, Graciela Yislén
Formato: tesis de maestría
Fecha de Publicación:2023
Descripción:Los recursos del Procesamiento del Lenguaje Natural, en conjunto con los corpus anotados, han acelerado el desarrollo de los sistemas inteligentes de pregunta-respuesta (chatbots), los cuales se entrenan para imitar el comportamiento lingüístico del ser humano. El etiquetado lingüístico de corpus es un proceso necesario en el entrenamiento de sistemas de pregunta-respuesta con métodos de aprendizaje automático; sin embargo, desde los inicios de la Inteligencia Artificial (AI) se ha intentado agilizar la evolución de la ingeniería lingüística a través de la automatización de las tareas pertenecientes al procesamiento del lenguaje natural, prescindiendo, muchas veces, del aporte de la Lingüística. El etiquetado de roles semánticos en español es un tema que ha permanecido al margen en NLP y continúa con numerosos problemas sin resolver y, es por esto que, la intervención de lingüistas, con su conocimiento sobre la estructura interna de la lengua, permite mejorar y robustecer los modelos para Machine Learning con aportes teóricos lingüísticos pertinentes. Por lo anterior, en esta tesis se creó un modelo de anotación de roles temáticos en español, con un análisis descriptivo para los 200 verbos más frecuentes del Corpus COVID-19, empleando para esto la Lingüística de Corpus como metodología y la Gramática Léxico-Funcional (LFG) como base teórica. Esta tesis se enfocó en el aspecto meramente lingüístico de la anotación, y no en la creación de chatbots ni en el entrenamiento puesta a punto (fine-tuning) para ChatGPT. Con este modelo de anotación se comparó el acuerdo entre los anotadores humanos y el de ChatGPT, por medio del coeficiente kappa de Fleiss. En este trabajo se concluye que ChatGPT obtuvo un desempeño inferior al de los humanos, con un valor de κ de 0.420 y con una precisión de 0.539, comparado al de los humanos que obtuvieron un valor de κ de 0.600, con una precisión de 0.700. Esta investigación ha sido de carácter empírico, con pocos antecedentes para la lengua española, porque, al momento del desarrollo de la tesis, no se habían publicado trabajos en donde se compararan las anotaciones humanas y las anotaciones de un modelo de lenguaje de gran tamaño, como ChatGPT, para los roles temáticos; así como tampoco se encontraron antecedentes que ofrecieran una guía claramente replicable para anotar los roles temáticos. Su diseño fue exploratorio, por tratarse de una propuesta de anotación de etiquetas lingüísticas para roles temáticos en español, y el método de análisis fue por medio del análisis textual de corpus en español, empleando la perspectiva de la Lingüística de Corpus.
País:Kérwá
Institución:Universidad de Costa Rica
Repositorio:Kérwá
Lenguaje:Español
OAI Identifier:oai:kerwa.ucr.ac.cr:10669/90416
Acceso en línea:https://hdl.handle.net/10669/90416
Palabra clave:LINGÜISTA
CORONAVIRUS
SINTAXIS
PREGUNTA-RESPUESTA
COMPORTAMIENTO LINGÜÍSTICO
SISTEMA INTELIGENTE