Estimación de incertidumbre para la detección de texto complejo en español
Abstract
En la actualidad, la simplificación de textos, que implica la transformación de textos para mejorar su legibilidad y comprensibilidad para públicos específicos, es un área de creciente interés. Este proceso es crucial para aumentar la inclusividad, especialmente para personas con baja escolaridad o con discapacidades visuales/auditivas. Aunque los avances recientes en el campo, especialmente con los Modelos del Lenguaje de Gran Tamaño(Large Lenguage Models), han mejorado las técnicas de simplificación de texto basadas en máquinas, estos modelos a menudo requieren un uso intensivo de recursos y la mayoría se encuentra en manos de empresas privadas por lo que su utilización en fase de inferencia puede llegar a ser bastante costoso. Por ello, un modelo que pueda clasificar eficientemente los segmentos de texto que necesitan ser simplificados puede optimizar el uso de recursos y evitar la sobrecarga innecesaria. En este contexto, la categorización precisa de los textos en términos de su complejidad —simples o complejos— se vuelve esencial. Sin embargo, esta tarea no está exenta de desafíos, como los falsos positivos o negativos que pueden surgir de un modelo inadecuadamente ajustado. Una estrategia para manejar estos desafíos es la implementación de un puntaje de incertidumbre para cada predicción, permitiendo así tomar decisiones más informadas sobre qué textos requieren simplificación. Esta investigación se enfoca en la exploración de diversos enfoques de Estimación de Incertidumbre para la identificación de textos complejos en español, un área que no ha sido explorada hasta ahora. Nuestro objetivo es no solo definir y clasificar la complejidad del texto, sino también minimizar la incertidumbre asociada con estas clasificaciones, mejorando así la eficiencia y efectividad de los procesos de simplificación de texto. Currently, text simplification, which involves transforming texts to improve their readability and comprehensibility for specific audiences, is an area of growing interest. This process is crucial for enhancing inclusivity, especially for individuals with low levels of education or visual/hearing impairments. Although recent advances in the field, particularly with Large Language Models, have improved machine-based text simplification techniques, these models often require intensive resources, and most are controlled by private companies, making their inference phase usage quite costly. Therefore, a model capable of efficiently classifying text segments that need simplification can optimize resource usage and prevent unnecessary overload. In this context, the precise categorization of texts in terms of their complexity—simple or complex—becomes essential. However, this task is not without challenges, such as false positives or negatives that may arise from an inadequately tuned model. One strategy to address these challenges is the implementation of an uncertainty score for each prediction, allowing for more informed decisions about which texts require simplification. This research focuses on exploring various approaches to Uncertainty Estimation for identifying complex texts in Spanish, an area that has not yet been explored. Our goal is not only to define and classify text complexity but also to minimize the uncertainty associated with these classifications, thereby improving the efficiency and effectiveness of text simplification processes.
Description
Proyecto de Graduación (Maestría en Computación) Instituto Tecnológico de Costa Rica, Escuela de Ingeniería en Computación, 2024. Esta tesis cumple con el objetivo ODS 4:
garantizar una educación inclusiva y equitativa de calidad y promover oportunidades de aprendizaje permanente para todas las personas.
Meta 5:
eliminar las disparidades de género en la educación y asegurar el acceso igualitario a todos los niveles de la enseñanza y la formación profesional para las personas vulnerables, incluidas las personas con discapacidad, los pueblos indígenas y los niños en situaciones de vulnerabilidad.
Share
Metrics
Collections
- Maestría en Computación [119]

