Estimación de la variabilidad en las transcripciones de un modelo de reconocimiento de voz

 

Αποθηκεύτηκε σε:
Λεπτομέρειες βιβλιογραφικής εγγραφής
Συγγραφέας: Morales Muñoz, Walter David
Μορφή: tesis de maestría
Ημερομηνία έκδοσης:2025
Περιγραφή:Este trabajo presenta la adaptación y aplicación de la técnica de MCD para evaluar la incertidumbre en las transcripciones generadas por el modelo de reconocimiento de voz Whisper, evaluando un conjunto de datos de audio en español con transcripciones correspondientes. La metodología propuesta cuantifica la incertidumbre basándose en la variabilidad de las inferencias realizadas por el modelo y permite captar parcialmente la correlación entre esta incertidumbre y el desempeño del sistema. Los resultados evidencian una diferencia significativa entre dos grupos de audios —aquellos con un WER superior o inferior a distintos umbrales predefinidos—, lo que sugiere que MCD puede discriminar niveles de precisión en el reconocimiento de voz. Además, se contrastaron estos resultados de incertidumbre con la técnica de TS, observándose un comportamiento similar entre ambas técnicas, con diferencias mínimas. El estudio también aborda conceptos clave en el campo de Automatic Speech Recognition (ASR), se centra en el modelo Whisper y propone futuras líneas de investigación para ampliar la comparación y robustez de los resultados obtenidos.
Χώρα:Kérwá
Ίδρυμα:Universidad de Costa Rica
Repositorio:Kérwá
Γλώσσα:Español
OAI Identifier:oai:kerwa.ucr.ac.cr:10669/101679
Διαθέσιμο Online:https://hdl.handle.net/10669/101679
Λέξη-Κλειδί :Variabilidad
trasncripciones
Reconocimiento de voz