Meta AI presenta I-JEPA revolucionario Un gran salto innovador en la visión por computadora que emula el aprendizaje y el razonamiento humano y animal.

Meta AI presents I-JEPA, a revolutionary innovation in computer vision that emulates human and animal learning and reasoning.

Los humanos recogen una gran cantidad de información de fondo sobre el mundo simplemente observándolo. El equipo de Meta ha estado trabajando en el desarrollo de computadoras que puedan aprender modelos internos de cómo funciona el mundo para permitirles aprender mucho más rápido, planificar cómo hacer trabajos difíciles y adaptarse rápidamente a condiciones novedosas desde el año pasado. Para que el sistema sea efectivo, estas representaciones deben aprenderse directamente a partir de entradas sin etiquetar, como imágenes o sonidos, en lugar de conjuntos de datos etiquetados ensamblados manualmente. Este proceso de aprendizaje se conoce como aprendizaje auto-supervisado.

Las arquitecturas generativas se entrenan ocultando o borrando partes de los datos utilizados para entrenar el modelo. Esto podría hacerse con una imagen o texto. Luego, hacen conjeturas educadas sobre qué píxeles o palabras faltan o están distorsionados. Sin embargo, una gran desventaja de los enfoques generativos es que el modelo intenta llenar cualquier vacío en el conocimiento, a pesar de la incertidumbre inherente del mundo real.

Los investigadores de Meta acaban de presentar su primer modelo de inteligencia artificial. Al comparar las representaciones abstractas de las imágenes (en lugar de comparar los píxeles en sí mismos), su Arquitectura Predictiva de Incrustación Conjunta de Imágenes (I-JEPA) puede aprender y mejorar con el tiempo.

Según los investigadores, el JEPA estará libre de los sesgos y problemas que aquejan al pre-entrenamiento basado en la invarianza porque no implica la reducción de representaciones de numerosas vistas / aumentaciones de una imagen a un solo punto.

El objetivo de I-JEPA es llenar los vacíos de conocimiento utilizando una representación más cercana a cómo piensan los individuos. El método de enmascaramiento de múltiples bloques propuesto es otra opción de diseño importante que ayuda a dirigir a I-JEPA hacia el desarrollo de representaciones semánticas.

El predictor de I-JEPA puede considerarse un modelo de mundo limitado y primitivo que puede describir la incertidumbre espacial en una imagen fija basándose en información contextual limitada. Además, la naturaleza semántica de este modelo de mundo le permite hacer inferencias sobre partes previamente desconocidas de la imagen en lugar de depender únicamente de la información a nivel de píxeles.

Para ver las salidas del modelo cuando se le pide pronosticar dentro del cuadro azul, los investigadores entrenaron un decodificador estocástico que transfiere las representaciones predichas por I-JEPA de vuelta al espacio de píxeles. Este análisis cualitativo demuestra que el modelo puede aprender representaciones globales de objetos visuales sin perder de vista dónde están esos objetos en el marco.

El pre-entrenamiento con I-JEPA utiliza pocos recursos informáticos. No requiere la sobrecarga de aplicar aumentaciones de datos más complejas para proporcionar perspectivas diferentes. Los hallazgos sugieren que I-JEPA puede aprender representaciones semánticas robustas y preconstruidas sin mejoras de vista personalizadas. Una evaluación de sonda lineal y semi-supervisada en ImageNet-1K también supera las técnicas de reconstrucción de píxeles y tokens.

En comparación con otros métodos de pre-entrenamiento para tareas semánticas, I-JEPA se defiende a pesar de depender de las aumentaciones de datos producidas manualmente. I-JEPA supera estos enfoques en tareas básicas de visión como el recuento de objetos y la predicción de profundidad. I-JEPA es adaptable a más escenarios ya que utiliza un modelo menos complejo con un sesgo inductivo más flexible.

El equipo cree que los modelos JEPA tienen el potencial de ser utilizados de manera creativa en áreas como la interpretación de video, lo cual es bastante prometedor. El uso y la escalabilidad de enfoques auto-supervisados para desarrollar un modelo amplio del mundo es un gran avance.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors PickLanguage ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Meta AI presenta I-JEPA revolucionario Un gran salto innovador en la visión por computadora que emula el aprendizaje y el razonamiento humano y animal.

Was this article helpful?

Cómo funciona GPT una explicación metafórica de Clave, Valor, Consulta en Atención, utilizando un cuento de pociones.

Predicción de rendimiento de cultivos utilizando Aprendizaje Automático e implementación de Flask.

Aprendizaje Automático

El 70% de los desarrolladores adoptan la IA hoy en día adentrándose en el surgimiento de los grandes modelos de lenguaje, LangChain y las bases de datos vectoriales en el panorama tecnológico actual.

Sabemos que las LLM pueden utilizar herramientas, ¿pero sabías que también pueden crear nuevas herramientas? Conoce a las LLM como fabricantes de herramientas (LATM) un sistema de bucle cerrado que permite a las LLM crear sus propias herramientas reutilizables.

La Era de Gen AI Un Nuevo Comienzo

Promocionar canalizaciones en una configuración multiambiente utilizando Amazon SageMaker Model Registry, HashiCorp Terraform, GitHub y Jenkins CI/CD

Construir una máquina GPU vs. Usar la Nube GPU

Soluciones inteligentes de respuesta a emergencias ante condiciones meteorológicas severas