Este documento de IA presenta BioCLIP aprovechando el conjunto de datos TreeOfLife-10M para transformar la visión por computadora en biología y conservación

Esta presentación de IA muestra cómo BioCLIP utiliza el conjunto de datos TreeOfLife-10M para revolucionar la visión por computadora en biología y conservación

Muchas ramas de la biología, incluyendo ecología, biología evolutiva y biodiversidad, están recurriendo cada vez más a la imagen digital y a la visión por computadora como herramientas de investigación. La tecnología moderna ha mejorado considerablemente su capacidad para analizar grandes cantidades de imágenes de museos, trampas para cámaras y plataformas de ciencia ciudadana. Estos datos luego se pueden utilizar para la delimitación de especies, la comprensión de los mecanismos de adaptación, la estimación de la estructura y abundancia de poblaciones, y la monitorización y conservación de la biodiversidad.

No obstante, encontrar y entrenar un modelo adecuado para una tarea determinada y etiquetar manualmente suficientes datos para las especies y estudios particulares sigue siendo un desafío significativo cuando se intenta utilizar la visión por computadora para resolver una pregunta biológica. Esto requiere un gran conocimiento de aprendizaje automático y tiempo.

Investigadores de la Universidad Estatal de Ohio, Microsoft, la Universidad de California Irvine y el Instituto Politécnico Rensselaer están investigando la construcción de un modelo de visión fundamental del Árbol de la Vida en este esfuerzo. Este modelo debe cumplir con los siguientes requisitos para ser aplicable en general a tareas biológicas del mundo real. Antes que nada, debe ser capaz de adaptarse a los investigadores que estudian una amplia variedad de clados, no solo uno, e idealmente generalizarse a todo el árbol de la vida. Además, debe adquirir representaciones detalladas de imágenes de criaturas porque, en el campo de la biología, es común encontrar organismos visualmente similares, como especies estrechamente relacionadas dentro del mismo género o especies que imitan las apariencias de otras por razones de adaptación. Debido a la organización del Árbol de la Vida de los seres vivos en grupos amplios (como animales, hongos y plantas) y muy detallados, este nivel de granularidad es significativo. Por último, los excelentes resultados en el régimen de pocos datos (es decir, de cero a pocos datos) son cruciales debido al alto costo de recopilación y etiquetado de datos en biología.

Los modelos de visión de dominio general actuales entrenados con cientos de millones de imágenes no funcionan adecuadamente cuando se aplican a la biología evolutiva y la ecología, a pesar de que estos objetivos no son nuevos en la visión por computadora. Los investigadores han identificado dos obstáculos principales para crear un modelo de visión fundamental en biología. En primer lugar, se requieren mejores conjuntos de datos de preentrenamiento, ya que los disponibles actualmente son insuficientes en cuanto a tamaño, diversidad o granularidad de las etiquetas. En segundo lugar, como los algoritmos de preentrenamiento actuales no abordan bien los tres principales objetivos, es necesario encontrar mejores métodos de preentrenamiento que aprovechen las características únicas del dominio biológico.

Con estos objetivos y obstáculos en mente, el equipo presenta lo siguiente:

TREE OF LIFE-10M, un enorme conjunto de datos de imágenes de biología listo para el aprendizaje automático.
BIOCLIP es un modelo basado en la visión para el árbol de la vida entrenado utilizando taxones apropiados en TREEOFLIFE-10M.

TREEOFLIFE-10M es un extenso y variado conjunto de datos de imágenes de biología listo para el aprendizaje automático. Con más de 10 millones de fotografías que abarcan 454 mil taxones en el Árbol de la Vida, los investigadores han creado y lanzado el conjunto de datos más grande hasta la fecha de imágenes de biología con etiquetas taxonómicas acompañantes. Solo 2,7 millones de fotos representan la composición de 10,000 taxones de iNat21, la colección de imágenes de biología listas para el aprendizaje automático más grande. TREEOFLIFE-10M incorpora conjuntos de datos de alta calidad existentes, como iNat21 y BIOSCAN-1M. Gran parte de la diversidad de datos en TREEOFLIFE-10M proviene de la Enciclopedia de la Vida (eol.org), que contiene fotos seleccionadas recientemente de esa fuente. Se han anotado jerarquías taxonómicas y clasificaciones taxonómicas superiores de cada imagen en TREEOFLIFE-10M en el grado más alto posible. BIOCLIP y otros modelos para el futuro de la biología se pueden entrenar con la ayuda de TREEOFLIFE-10M.

BIOCLIP es una representación del Árbol de la Vida basada en la visión. Un enfoque común y directo para entrenar modelos de visión en conjuntos de datos etiquetados a gran escala como TREEOFLIFE-10M es aprender a predecir índices taxonómicos a partir de imágenes utilizando un objetivo de clasificación supervisada. ResNet50 y Swin Transformer también utilizan esta estrategia. No obstante, esto pasa por alto y no utiliza el complejo sistema de etiquetas taxonómicas: los taxones no existen de forma independiente, sino que están interrelacionados dentro de una taxonomía exhaustiva. Por lo tanto, es posible que un modelo entrenado utilizando clasificación supervisada básica no pueda clasificar taxones desconocidos o generalizar adecuadamente a taxones que no estuvieron presentes durante el entrenamiento. En cambio, el equipo sigue un nuevo enfoque que combina la amplia taxonomía biológica de BIOCLIP con el aprendizaje contrastivo multimodal en el estilo de CLIP. Al utilizar el objetivo de aprendizaje contrastivo CLIP, pueden aprender a asociar imágenes con sus respectivos nombres taxonómicos después de “aplanar” la taxonomía desde el Reino hasta la clasificación taxonómica más distal en una cadena conocida como nombre taxonómico. Al utilizar los nombres taxonómicos de los taxones que no son visibles, BIOCLIP también puede realizar clasificación de cero disparo.

El equipo también sugiere y demuestra que una técnica de entrenamiento de tipo de texto mixto es beneficiosa; esto significa que mantienen la generalización de los nombres de la taxonomía pero tienen más flexibilidad para ser adaptables al combinar múltiples tipos de texto (por ejemplo, nombres científicos con nombres comunes) durante el entrenamiento. Por ejemplo, los usuarios posteriores aún pueden utilizar nombres comunes de especies y BIOCLIP funcionará excepcionalmente bien. Su exhaustiva evaluación de BIOCLIP se basa en diez conjuntos de datos de clasificación de imágenes de fina granularidad que abarcan flora, fauna e insectos, y un conjunto de datos de ESPECIES RARAS especialmente seleccionado que no se utilizó durante el entrenamiento. BIOCLIP supera significativamente a CLIP y OpenCLIP, lo que resulta en una mejora absoluta promedio de 17% en circunstancias de pocos ejemplos y 18% en circunstancias de cero ejemplos, respectivamente. Además, su análisis intrínseco puede explicar la mejor capacidad de generalización de BIOCLIP, que muestra que ha aprendido una representación jerárquica que se ajusta al Árbol de la Vida.

El entrenamiento de BIOCLIP sigue centrado en la clasificación, aunque el equipo ha utilizado el objetivo de CLIP para aprender representaciones visuales para cientos de miles de taxa de manera efectiva. Para permitir que BIOCLIP extraiga representaciones de nivel de rasgo de fina granularidad, planean incorporar fotos de calidad de investigación de inaturalist.org, que tiene 100 millones de fotografías o más, y recopilar descripciones textuales más detalladas de las apariencias de las especies en trabajos futuros.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors Pick

Was this article helpful?

93 out of 132 found this helpful

Este documento de IA presenta BioCLIP aprovechando el conjunto de datos TreeOfLife-10M para transformar la visión por computadora en biología y conservación

Was this article helpful?

SalesForce AI Research BannerGen Una biblioteca de código abierto para la generación de banners de múltiples modalidades.

La influencia oculta de la contaminación de datos en los grandes modelos de lenguaje

Inteligencia Artificial

Conoce al Omnívoro Diseñador Industrial combina el Arte y el OpenUSD para crear Activos 3D para el Entrenamiento de IA

Microsoft presenta Azure Custom Chips Revolucionando la computación en la nube y las capacidades de IA

Este artículo sobre IA revela Cómo los modelos de lenguaje grandes se comparan con los motores de búsqueda en eficiencia de verificación de hechos

Repensando la Integridad Académica en la Era de la IA Un Análisis Comparativo de ChatGPT y Estudiantes Universitarios en 32 Cursos

Conoce snnTorch Un paquete de Python de código abierto para realizar aprendizaje basado en gradientes con redes neuronales de disparo.

Conoce AUDIT Un modelo de edición de audio guiado por instrucciones basado en modelos de difusión latente