El recuento de camarones es esencial para que los acuicultores puedan estimar y gestionar el cultivo. Sin embargo, realizar este recuento a partir de imágenes es una tarea difícil por varias razones, como el pequeño tamaño de los camarones y su color transparente, que no se puede ver fácilmente. El deep learning es una opción obvia para lograr precisión en los resultados, minimizando el estrés de los camarones.
Los criadores de camarones que utilizan estanques para la producción, confían en la técnica de captura de los camarones con redes y, luego, relacionan la cantidad de organismos retenidos en la superficie de la red con la superficie de todo el estanque.
Sin embargo, mantener los camarones en el agua provoca estrés debido a la falta de oxígeno disuelto y al hecho de que están muy concentrados cuando se empacan para su pesaje, que puede durar hasta dos minutos.
Este aumento del estrés y los posibles daños en el exoesqueleto incrementan la mortalidad y aceleran la propagación de las manchas negras.
Trabajos relacionados
En la detección y reconocimiento de especies submarinas se consideran tres tipos de factores, a saber: tecnológicos, organizacionales y de recursos. Los aspectos relacionados con los factores tecnológicos son la disponibilidad de hardware, el costo y la modularidad del software.
Entre los factores organizativos, el intercambio de conocimientos y el apoyo de la dirección son esenciales para mantener el sistema de recuento de camarones. Por último, otros aspectos contribuyeron a los factores de recursos como el conjunto de datos, las habilidades de deep learning y la disponibilidad de la granja acuícola.
Este estudio se centró en el proceso de recuento utilizando el algoritmo basado en deep learning, para la detección y el reconocimiento de camarones bajo el agua.
Deep learning es una función de la inteligencia artificial que imita el trabajo del cerebro humano en el procesamiento de datos y los patrones de toma de decisiones.
Se trata de un subconjunto de inteligencia artificial del machine learning que implica una red que puede aprender sin supervisión a partir de datos no estructurados o no etiquetados. El deep learning también puede denominarse aprendizaje neural profundo o red neural profunda.
Máscara R-CNN
La máscara R-CNN tiene como objetivo resolver el problema de segmentación de instancias y separar objetos en una imagen o un vídeo.
Esta contempla dos etapas. En la primera, se generan las regiones propuestas con un objeto dada la imagen o el vídeo de entrada. La segunda etapa puede anticipar la etiqueta de clase del objeto, descubrir el cuadro delimitador y crear una máscara de objeto a nivel de píxel especificado en la región propuesta de la primera etapa.
“Por otro lado, el R-CNN más rápido (faster R-CNN) es un algoritmo único utilizado para la detección de objetos. Del mismo modo, consta de dos fases.”
La primera, conocida como red regional propuesta (regional proposed network, RPN), recomienda un cuadro delimitador solo para los candidatos con objetos restringidos.
En la segunda fase, después de extraer las características de cada cuadro delimitador mediante la agrupación de regiones de interés (Region of Interest Pooling, RoIPool), R-CNN más rápido ejecuta los procesos posteriores de clasificación y regresión para cada cuadro delimitador.
Resultados y análisis experimentales
Para ahorrar tiempo en el proceso de entrenamiento de los modelos y acortar el tiempo de etiquetado del conjunto de datos, se utiliza la máscara R-CNN con el fin de encontrar el mejor parámetro y detectar el número total de camarones en una imagen.
Creación de un conjunto de datos
El conjunto de datos empleado para este estudio es una imagen que consiste en un grupo de camarones. La imagen se capturó con un total de 120 imágenes. Las cámaras submarinas obtuvieron algunos de los datos dispuestos para el experimento con los organismos marinos y otros.
Estos datos se dividen en siete categorías: peces, camarones, vieiras, cangrejos, langostas, abalones y pepinos de mar. Cada categoría oscila entre 1,000 y 1,400 hojas, con un total de 8,455 hojas en las que el 80% de los datos se utilizaron para el entrenamiento y el 20% para los conjuntos de prueba.
Entrenamiento del modelo
Se seleccionó ResNet101 en combinación con FPNs de las redes troncales de máscaras R-CNN. Primero, la red troncal extrajo el mapa de características de la imagen de entrada y, luego, las características fueron emitidas por la red troncal.
El procedimiento del modelo de entrenamiento en este trabajo utiliza 100 imágenes de entrenamiento y los hiperparámetros predeterminados y mejorados del modelo de máscara R-CNN. En el último paso, se seleccionan los hiperparámetros óptimos en función de su rendimiento y el modelo se utiliza en la fase de implementación o de prueba.
Índice de evaluación
El índice de evaluación del rendimiento del modelo se calcula en función de las precisiones, el recuerdo, la precisión media (mean average precisión, mAP), la precisión basada en la categoría y el valor de R2. Con 20 imágenes como conjunto de validación, los resultados del método mejorado se comparan con los de otros métodos.
“El cálculo de la precisión basada en la categoría es una comparación entre el número real (verdad de base) y el número predicho basado en el conjunto de datos de entrenamiento.”
La densidad del número de camarones se divide en tres categorías: menos densa, medianamente densa y muy densa. El número máximo real es de 256 camarones y el mínimo es de cuatro. Para la categoría menos densa, la verdad de base está entre 1 y 90 camarones, y consta de 82 imágenes (Figura 1).
El valor de R2 es la comparación de los resultados entre el número real de camarones y la predicción del número camarones, para lo cual se utiliza el método de regresión lineal.
Resultados experimentales y análisis
Se estudió el rendimiento del modelo máscara R-CNN mejorado propuesto y se comparó con el modelo máscara R-CNN original a partir de los conjuntos de datos de camarones. El modelo máscara R-CNN mejorado presenta un aumento significativa en la precisión y la recuperación en comparación con el modelo máscara R-CNN.
En particular, la precisión disminuye a medida que aumenta la densidad. También sugiere que, en la categoría menos densa con un número real de 2,682, el modelo propuesto obtuvo un número estimado de camarones de 2,671, alcanzando una precisión del 99.59% y un error de 0.41% (Figura 2).
En la categoría de densidad media, con un número real de 1,715 camarones, el modelo propuesto pudo lograr una predicción de 1,679, lo que representa una precisión del 97.90% y un error del 2.10%. Mientras tanto, con un número real en campo de 644, el modelo propuesto predijo 564 camarones, con una precisión del 87.58%, y un error del 12.42%.
Por lo tanto, el análisis indica que la tasa de precisión global del modelo propuesto a partir del conjunto de datos de entrenamiento alcanza el 97.48%, es decir, 4,914 de los 5,041 camarones. Una de las ideas del recuento es determinar el objeto indirectamente mediante la estimación de mapas de densidad.
“Estos se crean realizando una convolución con un kernel gaussiano y normalizándolo para que al integrarlo se obtenga el número de objetos. El objetivo principal es entrenar a la red convolucional para que trace una imagen a un mapa de densidad que pueda acumular el número de apariciones de objetos.”
La regresión lineal para el modelo Máscara R-CNN mejorado sugiere que se ajusta bien a los datos, lo que significa que el número predicho de camarones es similar al número real (Figura 3).
Este trabajo ofrece varias contribuciones significativas:
i. Las imágenes de los camarones se registraron desde la vista superior con la suposición de un tamaño igual debido a la edad similar de los camarones en el contenedor.
ii. Puede estimar automáticamente el número de camarones utilizando la visión por ordenador y deep learning.
iii. La máscara R-CNN puede ser entrenada para segmentar y contar efectivamente los camarones pequeños u objetos.
iv. La precisión del recuento de camarones se deprecia a medida que la densidad de camarones aumenta o se intensifica.
v. La eficacia de la estimación de camarones tiene una proporción lineal cuando se incrementan los hiperparámetros como la instancia máxima de detección, la tasa de aprendizaje, la instancia máxima de la verdad del terreno, el valor del umbral RPN, las anclas de entrenamiento RPN por imagen, el número de pasos por época, la región de interés de entrenamiento por imagen, los pasos de validación y el decaimiento del peso.
vi. La regresión lineal muestra que R2 aumenta con una mejor precisión después de realizar el entrenamiento de los hiperparámetros sobre la máscara R-CNN original.
vii. Esta aplicación puede reducir el riesgo de muerte de camarones en comparación con la práctica del recuento manual.
Conclusiones
Tras las pruebas y las mejoras, el método propuesto ha mejorado el mAP, la precisión y la recuperación. Los parámetros críticos que influyen en este avance para el método propuesto son: instancia máxima de detección, instancia máxima de la verdad del terreno, número de umbrales, anclajes de entrenamiento para cada imagen, número de pasos para cada época, número de regiones de interés de entrenamiento de cada imagen, número de pasos de validación, número de pasos en cada época, y número de épocas, regularización, optimizadores, tasa de aprendizaje, tamaño del lote, impulso de aprendizaje y disminución del peso.
“Los resultados del conjunto de datos de entrenamiento y del conjunto de datos de validación muestran que el modelo máscara R-CNN mejorado puede detectar y localizar los camarones con precisión con un valor del 97.48% en comparación con el método actual, demostrando ser más preciso que los métodos existentes. “
El presente estudio contribuye a fortalecer el conocimiento acerca de la visión por ordenador bajo el agua, abordando tres aspectos críticos: la reducción del riesgo de muerte de los animales bajo el agua a pesar del recuento manual, la configuración de máscara R-CNN y la puesta en evidencia los obstáculos y las ventajas en términos de eficacia cuando se trata de diferentes densidades de pequeños organismos.
Esta es una versión resumida desarrollada por el equipo editorial de Panorama Acuícola Magazine del artículo “UNDERWATER FISH DETECTION AND COUNTING USING MASK REGIONAL CONVOLUTIONAL NEURAL NETWORK”, escrito por: TEH HONG KHAI – Universiti Kebangsaan Malaysia, SITI NORUL HUDA SHEIKH ABDULLAH – Universiti Kebangsaan Malaysia, MOHAMMAD KAMRUL HASAN – Universiti Kebangsaan Malaysia, AND AHMAD TARMIZI – Mahjung Aquabest Hatchery.
La versión original fue publicada en ENERO de 2022 a través MULTIDISCIPLINARY DIGITAL PUBLISHING INSTITUTE.
Se puede acceder a la versión completa a través de https://www.mdpi.com/2073-4441/14/2/222.