Modelación de la calidad del agua superficial con algoritmos de aprendizaje automático y el índice ICA-NSF
Abstract
La evaluación integral de la calidad de los cuerpos de agua superficiales puede realizarse utilizando índices de calidad de agua (ICA) diseñados a partir de un conjunto de parámetros físicoquímicos con diferente peso estadístico en el índice. La distribución de los pesos dentro de un ICA es un elemento crítico, porque determina la influencia de cada parámetro en una clasificación final coherente con los elementos que componen el índice. La Dirección de Agua del Ministerio de Ambiente y Energía de Costa Rica ha empezado a aplicar el ICA-NSF adaptado al país con seis parámetros: saturación de oxígeno disuelto, demanda biológica de oxígeno, pH, ion nitrato, ion fosfato y sólidos totales. La distribución de los pesos fue definida en los Estados Unidos, por lo que se desconoce si es aplicable al territorio costarricense, ya que podría no contemplar la incidencia real de los parámetros. Se puede modelar la calidad del agua con algoritmos de aprendizaje automático (machine learning) y datos reales del Plan Nacional de Monitoreo de la Calidad de los Cuerpos de Agua Superficiales 2021-2024, tomando como base las categorías de calidad de un ICA, y extraer las importancias de los parámetros a lo interno del modelo. Se modeló con tres algoritmos de clasificación: Decision Tree, Random Forest y eXtreme Gradient Boosting. Los modelos fueron evaluados mediante validación cruzada estratificada para la exactitud, precisión, sensibilidad y F1. Luego de dos iteraciones para eliminar la influencia de los pesos originales, se escogió el modelo de Random Forest a partir de su rendimiento e interpretabilidad intrínseca. Este modelo asignó los pesos: 0,36 para DBO, 0,27 para ion fosfato, 0,15 para sólidos totales, 0,11 para porcentaje de saturación de oxígeno disuelto, 0,06 para ion nitrato y pH. Estos pesos objetivos establecen una línea base a partir de los datos del monitoreo nacional, que permitiría una aplicación más confiable del índice en Costa Rica. Comprehensive assessment of surface water bodies can be performed using Water Quality Indices (WQI). The distribution of weights within a WQI is critical, as it determines the influence of each parameter on the final classification. The Water Directorate of the Ministry of Environment and Energy of Costa Rica has begun applying the NSF-WQI, adapted to the country with six parameters: dissolved oxygen saturation, biological oxygen demand, pH, nitrates, phosphates, and total solids. The distribution of weights was defined in the United States; therefore, it is unknown whether it is applicable to Costa Rica, as it may not reflect the actual incidence of the parameters. Water quality can be modeled using machine learning algorithms and real data from the National Plan for Monitoring the Quality of Surface Water Bodies 2021-2024, based on the quality categories of a WQI, and the importance of the parameters can be extracted within the model. Three classification algorithms were applied for modeling: Decision Tree, Random Forest and eXtreme Gradient Boosting. The models were evaluated using stratified cross-validation with the Accuracy, Precision, Recall, and F1 metrics. After two iterations to eliminate the influence of the original weights, the Random Forest model was selected based on its performance and intrinsic interpretability. This model assigned the following weights: 0.36 for BOD, 0.27 for phosphates, 0.15 for total solids, 0.11 for dissolved oxygen saturation, and 0.06 for nitrates and pH. These objective weights establish a baseline grounded on the national monitoring data, which can support a more trustworthy application of the index in Costa Rica.
Description
Proyecto de Graduación (Licenciatura en Ingeniería Ambiental) Instituto Tecnológico de Costa Rica, Escuela de Química, 2025 Esta tesis cumple con el objetivo ODS 6:
garantizar la disponibilidad y la gestión sostenible del agua y el saneamiento para todas las personas.
Meta 3:
mejorar la calidad del agua reduciendo la contaminación, eliminando el vertimiento y minimizando la emisión de productos químicos y materiales peligrosos, reduciendo a la mitad el porcentaje de aguas residuales sin tratar y aumentando considerablemente el reciclado y la reutilización sin riesgos a nivel mundial.
Share
Metrics
Collections
The following license files are associated with this item:


