Description
Six linear regression models and artificial intelligence algorithms for the prediction of subclinical mastitis in the milking herd of Ganadera La Uno S.A. farm were compared. As a response variable, a transformation of the “somatic cell count” (CCS) was used (somatic cell score, SCCS). As predictive variables of SCCS, there were used: 1) electrical conductivity (EC), 2) milk production (PL), and 3) technical indicators of cows, such as number of births (NP), days in lactation (DEL), age (ED) and reproductive status (ER). A “sick cow” was defined as one with a somatic cell score (SCCS) of 4 or more, which represents a somatic cell count (CCS) greater than 200,000 cs/ml. Four linear regression models were developed and two machine learning regression techniques were used: A) The Naïve Bayes classification algorithm and B) a regression model developed by automated learning. Linear regression models developed showed R2 values below 0.32, with a poor prediction value in terms of specificity (SPE) and sensitivity (SEN), with SPE of 55% (SEN set at 80%); while the area under the ROC curve of these models approached 75%. The classification algorithm of Naïve Bayes was not a better estimator of subclinical mastitis either, with values of SEN and SPE similar to the linear regression models mentioned above. The best predictor was the linear regression model that machine learning applied, with SPE (at 80% SEN) and areas under the ROC curve of 84.3% and 92.1% respectively. It was shown that there is great potential in machine learning algorithms for the detection of subclinical mastitis in dairy herds.
Se compararon seis modelos de regresión lineal y algoritmos de inteligencia artificial para la predicción de mastitis subclínica en el hato de ordeño de la finca Ganadera La Uno S. A. Como variable de respuesta se utilizó una transformación de la variable “conteo de células somáticas” (CCS), denominada score de células somáticas (SCCS). Como variables predictoras de SCCS se utilizaron la conductividad eléctrica (CE), la producción de leche (PL) e indicadores técnicos de las vacas como número de partos (NP), días en lactación (DEL), edad (ED) y estado reproductivo (ER). Se definió como “vaca enferma” aquella con un score de células somáticas (SCCS) de 4 o más, el cual representa un conteo de células somáticas (CCS) mayor a 200 000 cs/ml. Se desarrollaron varios modelos de regresión lineal por la técnica de modelos lineales y se usaron dos técnicas de regresión de machine learning: el algoritmo de clasificación de Naïve Bayes y un modelo de regresión desarrollado por aprendizaje automatizado. Los modelos de regresión lineal desarrollados por la técnica de modelos lineales mostraron valores de R2 por debajo de 0,32, con un valor de predicción deficiente en términos de especificidad (ESP) y de sensibilidad (SEN), con ESP de 55% (a una SEN fijada en 80%), mientras que el área bajo la curva ROC de estos modelos se aproximó a 75%. El algoritmo de clasificación de Naïve Bayes no fue un buen estimador de mastitis subclínica, con valores de SEN y ESP similares a los modelos de regresión lineal mencionados anteriormente. El mejor predictor fue el modelo de regresión lineal que aplicó machine learning, con ESP (a 80% de SEN) y áreas bajo la curva ROC de 84,3% y 92,1% respectivamente. Se demostró que existe un gran potencial en los algoritmos de aprendizaje automático para la detección de mastitis subclínica en hatos lecheros.