Maestría en Computación

Maestría en Computación https://hdl.handle.net/2238/10534 Wed, 10 Jun 2026 07:28:59 GMT 2026-06-10T07:28:59Z Data quality metrics for unlabelled datasets in medical imaging https://hdl.handle.net/2238/16498 Data quality metrics for unlabelled datasets in medical imaging Díaz-Villaplana, Ana Catalina Deep learning models typically require large, labeled datasets for optimal performance. However, in real-world applications such as medical imaging, labeled data can be scarce. Semi-supervised deep learning addresses this challenge by leveraging both labeled and unlabeled data to enhance model accuracy. Most semi-supervised methods assume similar distributions between labeled and unlabeled datasets, an assumption that may not hold in practice. To ensure data quality and consistency, we introduce Mahalanobis-based and Frobenius-based distance measures in the embedding space of the deep learning model to evaluate the similarity between labeled and unlabeled datasets. Our findings reveal that the Mahalanobis-based distance correlates strongly with the accuracy of the popular semi-supervised method MixMatch, whereas Frobenius distance results show inconsistent behavior. Moreover, the proposed approach is significantly more efficient than existing methods in the field. Proyecto de Graduación (Maestría en Computación) Instituto Tecnológico de Costa Rica, Escuela de Ingeniería en Computación, 2024. Mon, 01 Jul 2024 00:00:00 GMT https://hdl.handle.net/2238/16498 2024-07-01T00:00:00Z Estimación de incertidumbre para la detección de texto complejo en español https://hdl.handle.net/2238/16424 Estimación de incertidumbre para la detección de texto complejo en español Abreu-Cárdenas, Miguel Guillermo En la actualidad, la simplificación de textos, que implica la transformación de textos para mejorar su legibilidad y comprensibilidad para públicos específicos, es un área de creciente interés. Este proceso es crucial para aumentar la inclusividad, especialmente para personas con baja escolaridad o con discapacidades visuales/auditivas. Aunque los avances recientes en el campo, especialmente con los Modelos del Lenguaje de Gran Tamaño(Large Lenguage Models), han mejorado las técnicas de simplificación de texto basadas en máquinas, estos modelos a menudo requieren un uso intensivo de recursos y la mayoría se encuentra en manos de empresas privadas por lo que su utilización en fase de inferencia puede llegar a ser bastante costoso. Por ello, un modelo que pueda clasificar eficientemente los segmentos de texto que necesitan ser simplificados puede optimizar el uso de recursos y evitar la sobrecarga innecesaria. En este contexto, la categorización precisa de los textos en términos de su complejidad —simples o complejos— se vuelve esencial. Sin embargo, esta tarea no está exenta de desafíos, como los falsos positivos o negativos que pueden surgir de un modelo inadecuadamente ajustado. Una estrategia para manejar estos desafíos es la implementación de un puntaje de incertidumbre para cada predicción, permitiendo así tomar decisiones más informadas sobre qué textos requieren simplificación. Esta investigación se enfoca en la exploración de diversos enfoques de Estimación de Incertidumbre para la identificación de textos complejos en español, un área que no ha sido explorada hasta ahora. Nuestro objetivo es no solo definir y clasificar la complejidad del texto, sino también minimizar la incertidumbre asociada con estas clasificaciones, mejorando así la eficiencia y efectividad de los procesos de simplificación de texto.; Currently, text simplification, which involves transforming texts to improve their readability and comprehensibility for specific audiences, is an area of growing interest. This process is crucial for enhancing inclusivity, especially for individuals with low levels of education or visual/hearing impairments. Although recent advances in the field, particularly with Large Language Models, have improved machine-based text simplification techniques, these models often require intensive resources, and most are controlled by private companies, making their inference phase usage quite costly. Therefore, a model capable of efficiently classifying text segments that need simplification can optimize resource usage and prevent unnecessary overload. In this context, the precise categorization of texts in terms of their complexity—simple or complex—becomes essential. However, this task is not without challenges, such as false positives or negatives that may arise from an inadequately tuned model. One strategy to address these challenges is the implementation of an uncertainty score for each prediction, allowing for more informed decisions about which texts require simplification. This research focuses on exploring various approaches to Uncertainty Estimation for identifying complex texts in Spanish, an area that has not yet been explored. Our goal is not only to define and classify text complexity but also to minimize the uncertainty associated with these classifications, thereby improving the efficiency and effectiveness of text simplification processes. Proyecto de Graduación (Maestría en Computación) Instituto Tecnológico de Costa Rica, Escuela de Ingeniería en Computación, 2024.; Esta tesis cumple con el objetivo ODS 4: garantizar una educación inclusiva y equitativa de calidad y promover oportunidades de aprendizaje permanente para todas las personas. Meta 5: eliminar las disparidades de género en la educación y asegurar el acceso igualitario a todos los niveles de la enseñanza y la formación profesional para las personas vulnerables, incluidas las personas con discapacidad, los pueblos indígenas y los niños en situaciones de vulnerabilidad. Mon, 16 Dec 2024 00:00:00 GMT https://hdl.handle.net/2238/16424 2024-12-16T00:00:00Z Método para la administración de cargas de trabajo de computación paralela en un clúster de Kubernetes https://hdl.handle.net/2238/16418 Método para la administración de cargas de trabajo de computación paralela en un clúster de Kubernetes Arias-Chaves, Cristian Este documento en conjunto con un repositorio de código, proporcionaran toda la documentación, referencias y código necesarios para replicar la implementación y validaciones realizadas en la presente investigación. El alcance de la investigación se limita a ejecutar aplicaciones existentes de computación paralela basadas en MPI y no contempla desarrollarlas. La implementación de la prueba de concepto proporcionará el ambiente correcto para la ejecución de las aplicaciones en el clúster de trabajo creado utilizando el método propuesto. Proyecto de Graduación (Maestría en Computación) Instituto Tecnológico de Costa Rica, Escuela de Ingeniería en Computación, 2024. Sat, 01 Jun 2024 00:00:00 GMT https://hdl.handle.net/2238/16418 2024-06-01T00:00:00Z Guided data augmentation by transfer function (GUIDATFUN) https://hdl.handle.net/2238/16414 Guided data augmentation by transfer function (GUIDATFUN) Castillo-Barquero, Barnum Franco Deep Learning models are used in a wide variety of contexts, one of which is the classification of medical images for the diagnosis or detection of deceases. For the models to perform adequately great amounts of data to train them are needed, nonetheless the lack of labeled data in the medical field is noticeable due to the scarcity of medical professionals. To solve this other approaches lean on transfer learning to gather data from different sources but often the distribution between the clusters of data is too different causing accuracy issues for the models. To solve the distribution mismatch this study proposes a scoring base data augmentation policy called GUIDATFUN that measures the relatedness between the source and the target datasets and then a transfer function assigns an augmentation probability to the source images. The approach was tested with four different transfer functions in the context of chest X-ray images binary classification, the results showed that a supervised deep learning model trained with the data generated employing the GUIDATFUN method measured with statistical significance with a higher accuracy in comparison to trained with regular data in the context of domain adaptation for medical images. Proyecto de Graduación (Maestría en Computación) Instituto Tecnológico de Costa Rica, Escuela de Ingeniería en Computación, 2024.; Esta tesis cumple con el objetivo ODS 3: asegurar una vida sana y promover el bienestar de todas las personas en todas las edades. Meta 4: reducir en un tercio la mortalidad prematura por enfermedades no transmisibles mediante la prevención y el tratamiento y promover la salud mental y el bienestar. Thu, 29 Aug 2024 00:00:00 GMT https://hdl.handle.net/2238/16414 2024-08-29T00:00:00Z