Por: Christos Palaiokostas, Departamento de Cría y Genética Animal, Universidad Sueca de Ciencias Agrícolas, Uppsala, Suecia*
La capacidad de predecir la resistencia a enfermedades utilizando información genómica en especies de acuicultura ha atraído considerables esfuerzos de investigación. En el estudio actual, se evaluaron varios modelos de aprendizaje automático (ML) en términos de su eficiencia para detectar animales resistentes a enfermedades a través de su perfil genómico.
Los avances en las tecnologías de secuenciación de la última década han transformado el campo de la cría acuícola y la genómica. Hoy en día, no es raro que las decisiones de selección en los programas de cría acuícola se guíen por la información genómica derivada del uso de matrices de polimorfismos de un solo nucleótido (SNP) o de plataformas de genotipado por secuenciación (GBS). Además, gran cantidad de estudios de investigación en los últimos cinco años han demostrado el valor de las prácticas de selección genómica (GS) en una amplia gama de especies acuícolas, incluyendo, entre otras, salmónidos, tilapias, carpas, lubinas y ostras.
Los conocimientos actuales sugieren que la información genómica es especialmente valiosa para estudiar los rasgos relacionados con la resistencia a las enfermedades, ya que los brotes de enfermedades en los peces de cultivo suelen ser devastadores tanto en el aspecto económico como en el de bienestar.
“Dado que se carece de agentes terapéuticos eficaces para varias enfermedades comunes en la acuicultura, las prácticas de cría selectiva pueden ofrecer soluciones.“
Las prácticas de GS suelen considerarse la vía de acción preferida, ya que la resistencia a las enfermedades suele ser un rasgo poligénico. Las aplicaciones más comunes de la GS suelen implicar el uso de algoritmos basados en el mejor predictor lineal insesgado genómico (GBLUP) o sus variantes, como los enfoques de un solo paso y las regresiones lineales bayesianas.
Salvo algunas excepciones, la gran mayoría de los estudios publicados hasta la fecha han evaluado la eficacia de la predicción de los modelos de GS para la resistencia a las enfermedades basándose en datos de una sola generación. Lo anterior se debe principalmente a experimentos de desafío a la enfermedad con requisitos de alto costo, y programas de cría de acuicultura relativamente nuevos en comparación con sus homólogos ganaderos, para los que en muchos casos no se dispone de información genómica más allá de una sola generación.
Por lo tanto, la mayoría de los estudios destinados a elegir el modelo de mejor rendimiento para predecir la resistencia a las enfermedades, han utilizado estrategias de validación cruzada en animales de la misma generación para entrenar los modelos de GS y minimizar las posibilidades de sobreajuste.
El enfoque más habitual es aquel en el que la resistencia a las enfermedades se considera un rasgo binario. En tales situaciones, el objetivo del modelo probado es clasificar eficazmente los animales de cada categoría (resistentes frente a no resistentes) basándose en la información genómica disponible. Sin embargo, se ha prestado poca atención al escenario en el que la distribución fenotípica entre los animales resistentes y no resistentes está sesgada hacia una u otra categoría.
“Hoy en día, no es raro que las decisiones de selección en los programas de cría acuícola se guíen por la información genómica derivada del uso de matrices de polimorfismos de un solo nucleótido (SNP) o de plataformas de genotipado por secuenciación (GBS).”
Las herramientas de aprendizaje automático (ML) han estado recientemente en el punto de mira, encontrando aplicaciones en numerosas situaciones de la vida real. En el campo de la cría de animales, los algoritmos de ML también han cobrado impulso y se han aplicado a una amplia gama de tareas de predicción.
Aunque ningún modelo, ya sea basado en ML o más afín a la cría tradicional de animales, parece proporcionar predicciones óptimas para todos los rasgos de interés y esquemas de cría, el ML parece tener un papel en la caja de herramientas del criador de animales. Cabe señalar que los modelos ML, comparados con los modelos de cría de animales comúnmente utilizados, suelen brillar en escenarios donde existen interacciones que influyen en el fenotipo de interés entre los predictores del modelo.
En el presente estudio, se comparó la eficiencia de predicción de los árboles de decisión (DT), las máquinas de vectores de apoyo (SVM), los bosques aleatorios (RF) y los enfoques basados en el refuerzo, como AdaBoost y el refuerzo de gradiente extremo (XGB), con GBLUP-MCMC. También se evaluó la eficiencia de predicción de cada modelo en situaciones en las que la proporción de los dos fenotipos observados está desequilibrada. Por último, el tiempo computacional requerido para el entrenamiento de cada modelo ML se comparó con GBLUP-MCMC.
Materiales y métodos
Se utilizó el software QMSim para simular los conjuntos de datos fenotípicos y sus correspondientes genotípicos. La población histórica inicial constaba de 2,000 generaciones con un tamaño constante de 10,000. Los parámetros utilizados para simular la población histórica incluían una proporción de sexos igual, un apareamiento aleatorio y generaciones discretas.
Se simularon diez generaciones recientes discretas y no solapadas, utilizando un diseño de cría frecuente en los salmónidos. En concreto, se consideró que 100 individuos se aparearon de forma única con 200 madres en cada generación y se fenotipó a 30 animales de cada familia. Además, los individuos de las generaciones nueve y diez (12,000 animales) fueron genotipados para 9,000 SNPs, que se distribuyeron aleatoriamente en un genoma compuesto por 30 cromosomas de 100 cM de longitud cada uno.
Para simular un rasgo fenotípico binario, los animales se asignaron a dos categorías utilizando diferentes umbrales en su valor real de cría. Los umbrales se eligieron para simular un escenario en el que la distribución fenotípica entre las dos categorías (resistentes y no resistentes) estuviera aproximadamente equilibrada y otro escenario en el que el porcentaje de animales resistentes y no resistentes estuviera entre el 20 y el 25 % y entre el 75 y el 80 %, respectivamente.
“Aunque ningún modelo, ya sea basado en ML o más afín a la cría tradicional de animales, parece proporcionar predicciones óptimas para todos los rasgos de interés y esquemas de cría, el ML parece tener un papel en la caja de herramientas del criador de animales.”
En todos los modelos ML se utilizó un término de intercepción (conocido como sesgo en la terminología ML) y los genotipos SNP como predictores (conocidos como características en la terminología ML). La variable de respuesta en todos los escenarios probados era un vector que contenía el estado de resistencia a la enfermedad de cada animal.
La eficacia de la predicción de cada modelo probado se evaluó mediante curvas de características operativas del receptor (ROC). Los modelos se clasificaron en función de la métrica del área bajo la curva (AUC), que por construcción oscila entre cero y uno, y este último representa el clasificador perfecto.
Conjuntos de datos simulados
En particular, los conjuntos probados (DT, RF, Adaboost, XGB) proporcionan estimaciones sobre la importancia de cada característica. Con la excepción de RF, el resto de los conjuntos realizaron también la selección de variables asignando valores de cero a determinadas características.
Se probaron dos escenarios diferentes en cuanto a la distribución fenotípica de los animales caracterizados como resistentes o susceptibles. Más concretamente, se probó el rendimiento del modelo en los casos en que las dos categorías fenotípicas registradas, tenían aproximadamente el mismo número de observaciones y, en los casos en que la distribución fenotípica estaba sesgada hacia los animales no resistentes.
Resistencia de las carpas al herpesvirus Koi y ajuste de hiperparámetros
El rendimiento del modelo se dedujo siguiendo un esquema de validación cruzada de 5 veces que consistía en conjuntos de 1.004 animales para el entrenamiento y 251 animales para la validación. El porcentaje de animales resistentes entre los conjuntos de entrenamiento y validación osciló entre el 33 y el 37%. En general, la clasificación de los modelos fue la misma que en el caso de los conjuntos de datos de simulación.
El número de hiperparámetros disponibles para los modelos ML osciló entre 5 y 18. Adaboost tenía el menor número de hiperparámetros, mientras que XGB el mayor. La magnitud de la influencia de la capacidad de predicción de cada ML mediante el ajuste de hiperparámetros varió sustancialmente entre los modelos probados. El ajuste de los hiperparámetros tuvo un efecto más profundo en el caso de Adaboost, donde la fijación de la profundidad máxima permitida de los clasificadores DT subyacentes a 1 dio lugar a un aumento del 40-50% de la puntuación AUC. Por otro lado, cambiar los valores de los hiperparámetros respecto a los predeterminados en el caso de SVM dio lugar a peores predicciones.
Todos los modelos ML requirieron un tiempo computacional sustancialmente menor en comparación con GBLUP-MCMC para el ajuste y la predicción.
Discusión
La capacidad de predecir la resistencia a las enfermedades utilizando información genómica en las especies acuícolas ha atraído considerables esfuerzos de investigación. En el presente estudio, se obtuvieron resultados prometedores con las predicciones derivadas de los modelos ML de mejor rendimiento, estando muy cerca o incluso por encima de las equivalentes de GBLUP-MCMC.
Tradicionalmente, el rendimiento de varios modelos de GS para tareas de regresión en especies acuícolas se evalúa principalmente sobre la base de la denominada métrica de precisión, que es, de hecho, el coeficiente de correlación de Pearson entre los valores predichos y los verdaderos valores de cría o los registros fenotípicos del conjunto de datos de validación-prueba.
Recientemente se ha señalado que basarse únicamente en el coeficiente de correlación puede dar lugar a una selección de modelos no óptima. El uso del término de precisión anterior es el enfoque más común también para los rasgos binarios, aunque la definición de correlación, en este caso, podría considerarse algo problemática. Sin embargo, el término de precisión también se encuentra comúnmente en una amplia literatura de varios problemas de clasificación donde denota el número de casos predichos con éxito de todos los intentos de predicción.
No obstante, se puede argumentar que ninguna de las definiciones-usos de la exactitud mencionadas anteriormente es óptima para los rasgos binarios. Más concretamente, el uso de la precisión para evaluar el rendimiento de los modelos GS o ML en rasgos binarios con una proporción sesgada entre las dos categorías fenotípicas observadas tiene un valor práctico limitado.
Los resultados del presente estudio, que incluye tanto conjuntos de datos simulados como empíricos, demostraron que los modelos ML pueden aplicarse con éxito en problemas de clasificación relevantes para la mejora genética. Según los resultados actuales, la clasificación de los modelos probados no se vio afectada en los casos en que se utilizó una distribución desequilibrada entre los dos fenotipos observados.
Aunque hasta ahora no se ha documentado en la literatura ninguna aplicación de XGB en la cría selectiva en acuicultura, los resultados del presente estudio, junto con el hecho de que es uno de los algoritmos de ML más potentes, sugieren que podría ser una herramienta valiosa en futuros estudios de genética de la resistencia a las enfermedades en acuicultura. Curiosamente, XGB fue uno de los modelos con mejor rendimiento en términos de eficiencia de predicción.
En particular, como ocurre con la mayoría de los algoritmos de ML, XGB es particularmente propenso a sobreajustarse, especialmente en conjuntos de datos en los que el número de características (SNPs en el caso actual) supera con creces el número de observaciones. Como tal, XGB requiere el ajuste a priori de los hiperparámetros de regularización, que en el caso actual se logró principalmente mediante el uso de los hiperparámetros de la tasa de aprendizaje y el número máximo de estimadores.
De todos los modelos ML probados, el ajuste de hiperparámetros tuvo el efecto más sustancial en el caso de Adaboost, donde el ajuste de un solo hiperparámetro dio lugar a un aumento del 40-50 % de la puntuación AUC.
En el otro extremo, cambiar los valores de los hiperparámetros respecto a los predeterminados, dio lugar a peores predicciones en el caso de SVM, lo que indica que el ajuste fino de los hiperparámetros en ML no es una tarea trivial.
“Especialmente en el caso de los modelos con un elevado número de hiperparámetros como XGB, una búsqueda exhaustiva se consideraría especialmente difícil y larga.“
Curiosamente, XGB, Adaboost y RF son algoritmos de aprendizaje por conjuntos que se basan en la agregación de los resultados de los estimadores de base (por ejemplo, aprendices débiles como DT) siguiendo diferentes rutas de optimización como bagging o pasting.
En los tres casos, el estimador base más común es el DT, y la idea fundamental es que, mediante la agregación de los resultados de varios estimadores simples, se puede mejorar la eficacia de la predicción del modelo en comparación con el equivalente de un solo estimador. Aunque obtener una imagen completa de la ruta de optimización interna exacta de cada uno de los modelos de conjunto es muy difícil, los resultados obtenidos ponen de manifiesto que existen diferencias sustanciales en cuanto a la magnitud de la selección de variables.
“Los resultados del presente estudio, que incluye tanto conjuntos de datos simulados como empíricos, demostraron que los modelos ML pueden aplicarse con éxito en problemas de clasificación relevantes para la mejora genética.“
Limitando nuestro enfoque a la tarea de predecir la resistencia a las enfermedades en la acuicultura y teniendo en cuenta la amplia variación de los mecanismos genéticos subyacentes implicados en diversas enfermedades, es dudoso que un único modelo, ya sea del GS o del ML, sea óptimo para todos los casos. Sin embargo, es justo afirmar que GBLUP-MCMC es un enfoque robusto. No obstante, una ventaja significativa de los modelos ML probados, reside en la reducción sustancial del tiempo de cálculo en comparación con GBLUP-MCMC en términos de ajuste del modelo.
En el presente estudio, se utilizó un número relativamente alto de iteraciones, ya que en el caso de los rasgos binarios, la mezcla del MCMC es lenta. Sin embargo, a pesar de lo anterior, sigue siendo evidente que el ML, principalmente debido a la paralelización de las tareas asignadas, supera claramente a los algoritmos basados en MCMC en términos de eficiencia computacional. En particular, cabría esperar diferencias más sustanciales entre ambas clases en el caso de utilizar la computación de alto rendimiento (HPC). En un estudio anterior sobre la resistencia genética de la dorada a la pasteurelosis, en el que el porcentaje de animales resistentes era de aproximadamente sólo el 5%, un clasificador ingenuo que predijera siempre un animal no resistente habría alcanzado una precisión de aproximadamente 0,95.
Es importante destacar que la evaluación del modelo se realizó sobre la base de que la resistencia a la enfermedad se simplificó como un rasgo binario. Aunque este enfoque es atractivo desde un punto de vista práctico, podría argumentarse que la resistencia genética a una enfermedad es un proceso mucho más complicado.
“Por ello, futuros estudios, que incluyan información sobre la resistencia y la tolerancia del huésped frente a los patógenos, pueden arrojar luz adicional y contribuir a agilizar el progreso genético mediante la cría selectiva. “
Además, las simulaciones realizadas consideraron la arquitectura genética del rasgo como puramente aditiva. Aunque esto último ha demostrado en repetidas ocasiones ser una aproximación fiable, bien podría darse el caso de que varios efectos interactivos entre los componentes genéticos determinantes desempeñen un papel esencial en la resistencia a las enfermedades. Curiosamente, los modelos ML suelen brillar en la detección de patrones e interacciones no lineales.
Conclusiones Generales
Los resultados del presente estudio sugieren que los ML pueden ser herramientas valiosas en los estudios de cría acuícola que tienen como objetivo predecir animales resistentes a las enfermedades. XGB fue el modelo que se clasificó en primer lugar, transmitiendo una ligera ventaja sobre GBLUP-MCMC que osciló entre el 1-4%. Además, SVM y RF también ofrecieron predicciones competitivas. No se recomienda la aplicación de DT únicamente, ya que se obtuvieron predicciones bajas de forma consistente en todos los conjuntos de datos probados. Por último, en cuanto al tiempo de cálculo necesario, todos los modelos ML superaron claramente a GBLUP-MCMC.
* Esta es una versión resumida desarrollada por el equipo editorial de Panorama Acuícola Magazine del artículo original “Predicting for disease resistance in aquaculture species using machine learning models” escrito por Christos Palaiokostas, Departamento de Cría y Genética Animal, Universidad Sueca de Ciencias Agrícolas, Uppsala, Suecia. El artículo se publicó originalmente a través de Aquaculture Reports Journal de Elsevier en 2021 y se puede encontrar en línea a través de este enlace: https://doi.org/10.1016/j.aqrep.2021.100660