Pensando como un anotador en profundidad Generación de instrucciones para etiquetar conjuntos de datos

Generación de instrucciones para etiquetar conjuntos de datos como un anotador en profundidad

Todos estamos asombrados por el avance que hemos visto en los modelos de IA recientemente. Hemos visto cómo los modelos generativos se revolucionaron al pasar de un algoritmo de generación de imágenes extravagante hasta el punto en que se volvió difícil diferenciar el contenido generado por IA de los reales.

Todos estos avances son posibles gracias a dos puntos principales. Las estructuras avanzadas de redes neuronales, y quizás más importante, la disponibilidad de conjuntos de datos a gran escala.

Tomemos la difusión estable, por ejemplo. Los modelos de difusión han estado con nosotros durante algún tiempo, pero nunca los vimos lograr ese tipo de resultados antes. Lo que hizo que la difusión estable fuera tan poderosa fue el conjunto de datos a gran escala en el que fue entrenada. Cuando decimos grande, nos referimos a realmente grande. Estamos hablando de más de 5 mil millones de muestras de datos aquí.

Preparar un conjunto de datos así es obviamente una tarea muy exigente. Requiere una cuidadosa recopilación de puntos de datos representativos y etiquetado supervisado. Para la difusión estable, esto podría haber sido automatizado hasta cierto punto. Pero el elemento humano siempre está presente. El proceso de etiquetado desempeña un papel crucial en el aprendizaje supervisado, especialmente en la visión por computadora, ya que puede hacer o deshacer todo el proceso.

En el campo de la visión por computadora, los conjuntos de datos a gran escala sirven como el pilar para numerosas tareas y avances. Sin embargo, la evaluación y utilización de estos conjuntos de datos a menudo dependen de la calidad y disponibilidad de las instrucciones de etiquetado (LIs, por sus siglas en inglés) que definen las membresías de clase y brindan orientación a los anotadores. Desafortunadamente, las LIs accesibles públicamente rara vez se publican, lo que conduce a una falta de transparencia y reproducibilidad en la investigación de visión por computadora.

Esta falta de transparencia tiene implicaciones significativas. Esta falta de supervisión tiene implicaciones significativas, incluidos desafíos en la evaluación del modelo, abordar sesgos en las anotaciones y comprender las limitaciones impuestas por las políticas de instrucción.

Tenemos nueva investigación en nuestras manos que se ha realizado para abordar esta brecha. Es hora de conocer la tarea de Generación de Instrucciones de Etiquetado (LIG, por sus siglas en inglés).

LIG tiene como objetivo generar instrucciones de etiquetado (LIs) informativas y accesibles para conjuntos de datos sin instrucciones disponibles públicamente. Aprovechando modelos de visión y lenguaje a gran escala y proponiendo el marco Proxy Dataset Curator (PDC), la investigación busca generar instrucciones de etiquetado de alta calidad, mejorando así la transparencia y utilidad de los conjuntos de datos de referencia para la comunidad de visión por computadora.

Resumen de LIG. Fuente: https://arxiv.org/pdf/2306.14035.pdf

LIG tiene como objetivo generar un conjunto de instrucciones que no solo definan las membresías de clase, sino que también proporcionen descripciones detalladas de los límites de clase, sinónimos, atributos y casos especiales. Estas instrucciones consisten en descripciones de texto y ejemplos visuales, ofreciendo un conjunto completo e informativo de instrucciones para etiquetar conjuntos de datos.

Para abordar el desafío de generar LIs, el marco propuesto aprovecha modelos de visión y lenguaje a gran escala como CLIP, ALIGN y Florence. Estos modelos proporcionan representaciones poderosas de texto e imágenes que permiten un rendimiento robusto en diversas tareas. El marco Proxy Dataset Curator (PDC) se introduce como una solución computacionalmente eficiente para LIG. Aprovecha VLMs preentrenados para recorrer rápidamente el conjunto de datos y recuperar los mejores pares de texto-imagen representativos de cada clase. Mediante la fusión multimodal de representaciones de texto e imagen en una sola consulta, el marco PDC demuestra su capacidad para generar instrucciones de etiquetado de alta calidad e informativas sin necesidad de una extensa curación manual.

Aunque el marco propuesto muestra promesa, existen varias limitaciones. Por ejemplo, el enfoque actual se centra en generar pares de texto e imagen, y no se propone nada para instrucciones multimodales más expresivas. Las instrucciones de texto generadas también pueden ser menos matizadas en comparación con las instrucciones generadas por humanos, pero se espera que los avances en los modelos de lenguaje y visión aborden esta limitación. Además, el marco actualmente no incluye ejemplos negativos, pero las versiones futuras podrían incorporarlos para proporcionar un conjunto de instrucciones más completo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI Paper SummaryAI Shortsartificial intelligenceComputer VisionEditors PickMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Pensando como un anotador en profundidad Generación de instrucciones para etiquetar conjuntos de datos

Was this article helpful?

Lanzando un gato entre las palomas? Aumentando la computación humana con modelos de lenguaje grandes

Emily Webber de AWS sobre Preentrenamiento de Modelos de Lenguaje Grandes

Inteligencia Artificial

Procyon Photonics La startup dirigida por estudiantes de secundaria que podría revolucionar la informática

¿Cómo elimina el nuevo paradigma de Google AI el costo de composición en algoritmos de aprendizaje automático de múltiples pasos para una mayor utilidad?

Investigadores del Grupo Alibaba y Ant Group presentan VideoComposer un modelo de inteligencia artificial que permite combinar múltiples modalidades como texto, bocetos, estilo e incluso movimiento para impulsar la generación de video.

Lanzando un gato entre las palomas? Aumentando la computación humana con modelos de lenguaje grandes

Conoce DreamSync un nuevo marco de inteligencia artificial para mejorar la síntesis de texto a imagen (T2I) con comentarios de modelos de comprensión de imagen

Conoce SMPLitex un modelo de IA generativo y un conjunto de datos para la estimación de textura humana en 3D a partir de una única imagen.