Uso de SIG y machine learning

Uso de SIG y machine learning para predecir enfermedades en los criaderos de camarones en la costa oriental del delta del Mekong, Vietnam

El Delta del Mekong, en Vietnam, tiene el mayor potencial para la acuicultura del camarón, vital en el desarrollo rural de la región. La propagación de enfermedades limita seriamente la sostenibilidad de la cría de camarones. La combinación de Sistemas de Información Geográfica (SIG) y machine learning permite visualizar la distribución de las enfermedades y fortalecer las actividades relacionadas con su gestión.

La pesca en Vietnam contribuye al desarrollo de medios de vida sostenibles y a la economía en general, especialmente en el Delta del Mekong, Vietnam. La cría de camarones es la actividad acuícola más importante del país.

“Algunas de las enfermedades que afectan estos cultivos, como la Necrosis Hepatopancreática Aguda (NHPA), las enfermedades causadas por el virus del Síndrome de las Manchas Blancas (WSSV, por
sus siglas en inglés) y la enfermedad causada por el Enterocytozoon hepatopenaei (enfermedad EHP), tienen efectos desastrosos en las explotaciones camaroneras.”

Este estudio se realiza con el fin de contribuir a la reducción del riesgo de enfermedades que amenazan la cría de camarones. En este sentido, se evalúa el estado de la infección mediante la visualización de la distribución de tres enfermedades graves, SMB, EHP y NHPA, en un mapa de las granjas situadas en la costa oriental del Delta del Mekong.

Posteriormente, se extrajo información geográfica de este mapa, el cual se examinó en calidad de característica relacionada con el brote de la enfermedad. Adicionalmente, se investigaron varios factores, como signos clínicos de los camarones infectados, impacto ambiental y características geográficas que influyen en la enfermedad.

La técnica de machine learning se aplica a estos factores para predecir la aparición de cada enfermedad basándose en algoritmos de clasificación.

Materiales y métodos

Conjunto de datos

Los datos para este estudio se recolectaron desde 2013 en granjas de camarones en cuatro provincias situadas en la costa oriental del Delta del Mekong. Las dos principales especies de camarones que se cultivan en estas granjas son el camarón tigre Penaeus monodon y el camarón de pata blanca Litopenaeus vannamei.

“El conjunto de datos obtenidos consta de dos aspectos principales: signos clínicos y factores ambientales.”

Los signos clínicos incluyen:

(1) estado del intestino, diferenciado como intestino discontinuo, líquido amarillo en el intestino, poco alimento en el intestino o intestino vacío;

(2) estado del hepatopáncreas, definido como palidez y atrofia hepatopancreática;

(3) crecimiento lento;

(4) caparazón blando;

(5) heces blancas;

(6) manchas blancas;

(7) estructura vermiforme; y

(8) infección gregaria.

Los factores ambientales fueron temperatura, salinidad, pH, NO2 y NH4.

Machine learning

Para predecir la presencia de la enfermedad, los datos se dividieron en conjuntos de datos de entrenamiento y de prueba. El conjunto de datos de entrenamiento se empleó para generar el modelo de predicción, y el conjunto de datos de prueba para determinar la precisión del modelo.

En este caso, el conjunto de datos estaba formado por las tres variables dependientes SMB, EHP y NHPA, y se asignaron múltiples etiquetas de enfermedad a cada granja.

Regresión logística

El modelo de regresión logística suele aplicarse a la predicción probabilística. En este estudio, se utilizó el paquete Scikit-learn para Python para la predicción. La estructura de una red neuronal consta de muchos nodos (neuronas) situados en capas. Hay tres capas principales: entrada, oculta y salida.

“La inteligencia de este algoritmo se produce a través de la conexión y el peso de los nodos.”

El bosque aleatorio (random forest) elabora un modelo de predicción seleccionando muestras de forma aleatoria y emplea las características para construir múltiples árboles de decisión. El resultado se obtiene por votación mayoritaria de los árboles de decisión; por lo tanto, el bosque aleatorio es más adecuado y potente que un solo árbol de decisión.

Gradient Boosting

El refuerzo de gradiente tiene como objetivo convertir un aprendiz débil en un aprendiz fuerte, y se ha desarrollado a través de muchas aplicaciones. En este caso, se usan gradient boosting y random forest ejecutados en Scikit-learn del paquete de Python.

Resultados y discusión

Para establecer las distribuciones de las granjas infectadas por cada enfermedad, se trazan por separado las ubicaciones de las granjas con NHPA, EHP y SMB en las cuatro provincias analizadas.

Se detectó que la densidad de las granjas infectadas por NHPA era elevada en las provincias de Ca Mau y Tra Vinh, mientras que la EHP tenía menor efecto en las granjas de la provincia de Bac Lieu, y el SMB se presentó escasamente distribuido en toda la zona de estudio.

Posteriormente, se usó el machine learning con estos algoritmos para la predicción (Figura 1).

Uso de SIG y machine learning

Los métodos random forest y gradient boosting proporcionaron modelos sobreajustados para el conjunto de datos. Debido a que estos modelos aprendieron detalles, funcionaron bien con los datos de entrenamiento.

Sin embargo, no pudieron determinar las tendencias principales del conjunto de datos, lo cual dio
lugar a un peor rendimiento.

“Para el conjunto de datos de entrenamiento, la precisión fue del 100% en la predicción de todas las enfermedades; sin embargo, arrojaron bajas precisiones en el conjunto de pruebas en comparación con las del conjunto de entrenamiento.”

En concreto, el modelo de bosque aleatorio predijo con una precisión del 83.78% para SMB, 78.37% para EHP y 83.78% para NHPA, y el método de refuerzo de gradiente obtuvo una precisión del 78.37% para SMB, 78.37% para EHP y 81.08% para NHPA.

La gran diferencia de precisión entre el conjunto de datos de entrenamiento y el de prueba mostró que estos dos algoritmos no son adecuados para este análisis.

Discusión

El método de la red neuronal logró predicciones precisas tanto para el conjunto de datos de entrenamiento como para el de prueba, superando los de regresión logística, random forest y gradient boosting.

Este estudio contribuye a la gestión de las enfermedades, al ayudar a los camaroneros a entender cómo la tecnología basada en Sistemas de Información Geográfica (SIG) puede usarse para visualizar los brotes de enfermedades y determinar estrategias para reducir sus riesgos.

“La combinación de SIG y machine learning proporciona una predicción exhaustiva y un mapa intuitivo que hizo posible visualizar la distribución de la enfermedad.”

El conocimiento de la situación de la enfermedad a escala local también permite evaluar la eficacia de las actividades relacionadas con su gestión.

Las zonas muy infectadas pueden estar asociadas con una gestión deficiente de las explotaciones, contribuyendo a la contaminación cruzada entre ellas o a una fuente de semillas infectada; mientras que las zonas con bajos niveles de infección sugieren una buena gestión de la enfermedad en las explotaciones.

Basándose en esta información, los camaroneros pueden determinar fácilmente las ubicaciones adecuadas para las nuevas granjas o preparar soluciones apropiadas para evitar la infección.

“El uso del SIG en este estudio contribuyó a esclarecer el brote y la propagación de la enfermedad, la cual se analizó en función de la ubicación de las granjas, los criaderos y los afluentes del río.”

El análisis de la distancia más cercana entre las granjas y el río reveló que algunas granjas compartían la misma fuente de agua del río. Además, para aumentar la exhaustividad de la predicción, se examinaron los factores ambientales relacionados con las condiciones adecuadas para una fuerte activación de los patógenos.

La temperatura y la salinidad afectan en gran medida a la enfermedad, que tiende a brotar en épocas de calor y en condiciones de alta salinidad, pero otros factores, como los niveles de pH, NH4 y NO2, también influyen en las tasas de infección.

Estos factores ambientales son especialmente notables en el Delta del Mekong, donde el clima cálido y seco da lugar a condiciones favorables para un mayor riesgo de enfermedad. Entre los factores ambientales, la salinidad fue la que más contribuyó a la predicción de la enfermedad, seguida de la temperatura, pH, NO2 y NH4 (Figura 2).

Uso de SIG y machine learning

Aunque el entorno afecta la estimación del área de propagación de la enfermedad, este proceso se basa principalmente en la evidencia de la presencia de explotaciones infectadas. Para mejorar la precisión de la predicción de la EHP, se necesitan más datos, como densidad de camarones en los estanques y detalles de los regímenes de alimentación y cuidado.

Aunque en el Delta del Mekong hay muchas granjas de camarón y las enfermedades son muy frecuentes, como lo demuestran las enormes pérdidas económicas, los datos sobre enfermedades son difíciles de recopilar.

Además, como los brotes de enfermedades constituyen una situación delicada, los camaroneros no suelen compartir información sobre el estado de su granja infectada. Los acuicultores tienden a encontrar los tratamientos por sí mismos.

Sumado a esto, la investigación de enfermedades requiere largos periodos de datos suficientes, en especial en el caso de las explotaciones extensas.

“No obstante, si se pudiera obtener datos de todas las granjas de la región, incluidas sanas e infectadas, la visualización de la distribución de la enfermedad sería más clara y la predicción más precisa.”

La cartografía completa de todas las piscifactorías proporcionaría una base para futuras investigaciones, como la detección de poblaciones afectadas, los efectos de los contaminantes industriales en la enfermedad, el análisis de las zonas más adecuadas para el desarrollo de las piscifactorías y la evaluación de los cambios anuales en la distribución de las mismas.

La predicción de la infección será más precisa cuando el conjunto de datos se actualice con datos adicionales y, en consecuencia, la zona estimada de la enfermedad se visualizará de forma fiable en el área infectada.

Con los datos adecuados, esta investigación puede aplicarse a la protección de las granjas camaroneras en regiones distintas de las situadas en la costa oriental del Delta del Mekong.

Esta es una versión resumida desarrollada por el equipo editorial de Panorama Acuícola Magazine del artículo “USE OF GIS AND MACHINE LEARNING TO PREDICT DISEASE IN SHRIMP FARMED ON THE EAST COAST OF THE MEKONG DELTA, VIETNAM”, escrito por: NGUYEN MINH KHIEM – Hokkaido University – Can Tho University, YUKI TAKAHASHI – Hokkaido University, HIROKI YASUMA – Hokkaido University, DANG THI HOANG OANH – Can Tho University, TRAN NGOC HAI – Can Tho University, VU NGOC UT – Can Tho University, NOBUO KIMURA – Hokkaido University.
La versión original fue publicada en ENERO de 2022 a través FICHERIES SCIENCE.
Se puede acceder a la versión completa a través de https://doi.org/10.1007/s12562-021-01577-8.

Impactos: 70

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *