dc.contributor.advisor | Calvo-Valverde, Luis Alexánder | es |
dc.contributor.author | Arias-Muñoz, Ana Cristina | |
dc.date.accessioned | 2022-12-08T16:05:47Z | |
dc.date.available | 2022-12-08T16:05:47Z | |
dc.date.issued | 2022-06 | |
dc.identifier.uri | https://hdl.handle.net/2238/14060 | |
dc.description | Proyecto de Graduación ( Maestría en Computación) Instituto Tecnológico de Costa Rica, Escuela de Ingeniería en Computación, 2022 | es |
dc.description.abstract | Muchas de las decisiones importantes dependen de los resultados de las predicciones: evaluar productividad futura de un producto, prestamistas que buscan estimar la recuperación y ganancias sobre el capital, diagnósticos médicos, pronósticos del clima con diferentes fines (agricultura, turismo, meteorología, etcétera), evaluación de personal para decidir contrataciones en empresas, analizar postulantes para otorgar admisiones y becas en universidades, entre otros [1] [2]. Los pronósticos se basan en el análisis de series de tiempo para entender comportamientos, estacionalidades y tendencias en los datos. Sin embargo, es común que los datos registrados puedan tener faltantes a la hora de recopilar dicha información. Las razones pueden ser variadas: perdida de conectividad a internet, utilización de energía solar en los sensores (que pueden dañarse o no tener suficiente carga), corto circuitos, sensores húmedos o dañados, problemas de carga o estado en baterías, etcétera. A pesar de que actualmente ya existen estudios y algoritmos utilizados en la imputación de datos faltantes en series de tiempo, es de interés de esta investigación evaluar y proponer una arquitectura que utilice aprendizaje automático para la imputación de datos en series de tiempo utilizando múltiples variables y varias estaciones climatológicas de una misma zona geográfica para lograr la imputación de datos y comparar su efectividad con respecto algunas mitologías conocidas en la imputación de series de tiempo. Los resultados de esta investigación señalan que MissForest y EMB siguen siendo algoritmos robustos para la imputación de datos faltantes, sin embargo la arquitectura de aprendizaje automático propuesta es capaz de imputar al 1 %, 3 % y 5 % de datos faltantes con métricas que compiten con los algoritmos supra mencionados con la ventaja que se pueden imputar los datos faltantes de una estación a través del modelo entrenado con alguna otra estación cercana que comparta características similares a la estación que se pretende imputar. Sin embargo, para datos faltantes al 10 % y 20 % los algoritmos EMB y MissForest siguen siendo superiores a la arquitectura propuesta en esta investigación. | es |
dc.description.abstract | Many important decisions are based on the outcomes of forecasts: estimating future productivities, forecasting capital recovery and profits, estimating medical diagnoses, forecasting climate for various purposes (agriculture, tourism, meteorology, etc.), evaluating employees to make hiring decisions, analyzing candidates for administrative and financial positions in unions, and so on [1] [2]. Prognostications are based on the analysis of time series to understand behaviors, trends, and patterns in data. However, it is common for registered data to be missing when attempting to reassemble this information. The reasons for this can vary loss of internet connectivity, use of solar energy in sensors (which can cause damage or not have enough capacity), short circuits, damaged sensors, battery problems, etc. Despite the fact that there are currently studies and algorithms used in the imputation of missing data in time series, it is the goal of this research to evaluate and propose an architecture that uses machine learning for data imputation in time series by utilizing multiple variables and various climatological stations in a single geographical area to achieve data imputation and prediction. The findings of this study indicate that MissForest and EMB continue to be underutilized algorithms for the imputation of missing data. However, the proposed auto-learning architecture is capable of imputing up to 1 %, 3 %, and 5 % of missing data resulting in metrics that compete with the previously mentioned algorithms, with the added benefit of being able to impute data from multiple locations. However, for missing data between 10 % and 20 %, the EMB and MissForest algorithms continue to outperform the architecture proposed in this study | es |
dc.language.iso | spa | es |
dc.publisher | Instituto Tecnológico de Costa Rica | es |
dc.rights | acceso abierto | es |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-sa/4.0/ | * |
dc.subject | Evaluación de estrategias | es |
dc.subject | Imputación múltiple | es |
dc.subject | Series de tiempo | es |
dc.subject | Aprendizaje automático | es |
dc.subject | Pronóstico del tiempo | es |
dc.subject | Estaciones meteorológicas | es |
dc.subject | Meteorología -- Clima | es |
dc.subject | Strategies evaluation | es |
dc.subject | Multiple imputation | es |
dc.subject | Time series | es |
dc.subject | Automatic learning | es |
dc.subject | Weather forecasting | es |
dc.subject | Meteorological stations | es |
dc.subject | Meteorology -- Climate | es |
dc.subject | Research Subject Categories::TECHNOLOGY::Information technology::Computer science | es |
dc.title | Propuesta y evaluación de una estrategia para la imputación múltiple y multivariada de valores faltantes en series de tiempo del campo meteorológico utilizando aprendizaje automático = Proposal and evaluation of a strategy for multiple and multivariate imputación of missing values in time series of the meteorological field using machine learning | es |
dc.type | tesis de maestría | es |