Propuesta y evaluación de una estrategia para la imputación múltiple y multivariada de valores faltantes en series de tiempo del campo meteorológico utilizando aprendizaje automático = Proposal and evaluation of a strategy for multiple and multivariate imputación of missing values in time series of the meteorological field using machine learning

Arias-Muñoz, Ana Cristina

dc.contributor.advisor	Calvo-Valverde, Luis Alexánder	es
dc.contributor.author	Arias-Muñoz, Ana Cristina	es
dc.date.accessioned	2022-12-08T16:05:47Z
dc.date.available	2022-12-08T16:05:47Z
dc.date.issued	2022-06
dc.identifier.uri	https://hdl.handle.net/2238/14060
dc.description	Proyecto de Graduación ( Maestría en Computación) Instituto Tecnológico de Costa Rica, Escuela de Ingeniería en Computación, 2022.	es
dc.description.abstract	Muchas de las decisiones importantes dependen de los resultados de las predicciones: evaluar productividad futura de un producto, prestamistas que buscan estimar la recuperación y ganancias sobre el capital, diagnósticos médicos, pronósticos del clima con diferentes fines (agricultura, turismo, meteorología, etcétera), evaluación de personal para decidir contrataciones en empresas, analizar postulantes para otorgar admisiones y becas en universidades, entre otros [1] [2]. Los pronósticos se basan en el análisis de series de tiempo para entender comportamientos, estacionalidades y tendencias en los datos. Sin embargo, es común que los datos registrados puedan tener faltantes a la hora de recopilar dicha información. Las razones pueden ser variadas: perdida de conectividad a internet, utilización de energía solar en los sensores (que pueden dañarse o no tener suficiente carga), corto circuitos, sensores húmedos o dañados, problemas de carga o estado en baterías, etcétera. A pesar de que actualmente ya existen estudios y algoritmos utilizados en la imputación de datos faltantes en series de tiempo, es de interés de esta investigación evaluar y proponer una arquitectura que utilice aprendizaje automático para la imputación de datos en series de tiempo utilizando múltiples variables y varias estaciones climatológicas de una misma zona geográfica para lograr la imputación de datos y comparar su efectividad con respecto algunas mitologías conocidas en la imputación de series de tiempo. Los resultados de esta investigación señalan que MissForest y EMB siguen siendo algoritmos robustos para la imputación de datos faltantes, sin embargo la arquitectura de aprendizaje automático propuesta es capaz de imputar al 1 %, 3 % y 5 % de datos faltantes con métricas que compiten con los algoritmos supra mencionados con la ventaja que se pueden imputar los datos faltantes de una estación a través del modelo entrenado con alguna otra estación cercana que comparta características similares a la estación que se pretende imputar. Sin embargo, para datos faltantes al 10 % y 20 % los algoritmos EMB y MissForest siguen siendo superiores a la arquitectura propuesta en esta investigación.	es
dc.description.abstract	Many important decisions are based on the outcomes of forecasts: estimating future productivities, forecasting capital recovery and profits, estimating medical diagnoses, forecasting climate for various purposes (agriculture, tourism, meteorology, etc.), evaluating employees to make hiring decisions, analyzing candidates for administrative and financial positions in unions, and so on [1] [2]. Prognostications are based on the analysis of time series to understand behaviors, trends, and patterns in data. However, it is common for registered data to be missing when attempting to reassemble this information. The reasons for this can vary loss of internet connectivity, use of solar energy in sensors (which can cause damage or not have enough capacity), short circuits, damaged sensors, battery problems, etc. Despite the fact that there are currently studies and algorithms used in the imputation of missing data in time series, it is the goal of this research to evaluate and propose an architecture that uses machine learning for data imputation in time series by utilizing multiple variables and various climatological stations in a single geographical area to achieve data imputation and prediction. The findings of this study indicate that MissForest and EMB continue to be underutilized algorithms for the imputation of missing data. However, the proposed auto-learning architecture is capable of imputing up to 1 %, 3 %, and 5 % of missing data resulting in metrics that compete with the previously mentioned algorithms, with the added benefit of being able to impute data from multiple locations. However, for missing data between 10 % and 20 %, the EMB and MissForest algorithms continue to outperform the architecture proposed in this study	en
dc.language.iso	spa	es
dc.publisher	Instituto Tecnológico de Costa Rica	es
dc.rights	acceso abierto	es
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/4.0/	en
dc.subject	Evaluación de estrategias	es
dc.subject	Imputación múltiple	es
dc.subject	Series de tiempo	es
dc.subject	Aprendizaje automático	es
dc.subject	Pronóstico del tiempo	es
dc.subject	Estaciones meteorológicas	es
dc.subject	Meteorología -- Clima	es
dc.subject	Strategies evaluation	en
dc.subject	Multiple imputation	en
dc.subject	Time series	en
dc.subject	Automatic learning	en
dc.subject	Weather forecasting	en
dc.subject	Meteorological stations	en
dc.subject	Meteorology -- Climate	en
dc.subject	Research Subject Categories::TECHNOLOGY::Information technology::Computer science	en
dc.title	Propuesta y evaluación de una estrategia para la imputación múltiple y multivariada de valores faltantes en series de tiempo del campo meteorológico utilizando aprendizaje automático = Proposal and evaluation of a strategy for multiple and multivariate imputación of missing values in time series of the meteorological field using machine learning	es
dc.type	tesis de maestría	es

Ficheros en el ítem

Nombre:: TF9355_BIB307870_ Ana_Cristina ...
Tamaño:: 2.991Mb
Formato:: PDF

Ver/

Nombre:: license_rdf
Tamaño:: 1.006Kb
Formato:: application/rdf+xml

Ver/

Este ítem aparece en la(s) siguiente(s) colección(ones)

Maestría en Computación [120]

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como acceso abierto