Pensando como un anotador en profundidad Generación de instrucciones para etiquetar conjuntos de datos
Generación de instrucciones para etiquetar conjuntos de datos como un anotador en profundidad
Todos estamos asombrados por el avance que hemos visto en los modelos de IA recientemente. Hemos visto cómo los modelos generativos se revolucionaron al pasar de un algoritmo de generación de imágenes extravagante hasta el punto en que se volvió difícil diferenciar el contenido generado por IA de los reales.
Todos estos avances son posibles gracias a dos puntos principales. Las estructuras avanzadas de redes neuronales, y quizás más importante, la disponibilidad de conjuntos de datos a gran escala.
Tomemos la difusión estable, por ejemplo. Los modelos de difusión han estado con nosotros durante algún tiempo, pero nunca los vimos lograr ese tipo de resultados antes. Lo que hizo que la difusión estable fuera tan poderosa fue el conjunto de datos a gran escala en el que fue entrenada. Cuando decimos grande, nos referimos a realmente grande. Estamos hablando de más de 5 mil millones de muestras de datos aquí.
- Lanzando un gato entre las palomas? Aumentando la computación humana con modelos de lenguaje grandes
- Configuración de Proyectos en Python Parte VI
- Ojos en el premio Manteniendo el valor empresarial en el núcleo de los programas de datos
Preparar un conjunto de datos así es obviamente una tarea muy exigente. Requiere una cuidadosa recopilación de puntos de datos representativos y etiquetado supervisado. Para la difusión estable, esto podría haber sido automatizado hasta cierto punto. Pero el elemento humano siempre está presente. El proceso de etiquetado desempeña un papel crucial en el aprendizaje supervisado, especialmente en la visión por computadora, ya que puede hacer o deshacer todo el proceso.
En el campo de la visión por computadora, los conjuntos de datos a gran escala sirven como el pilar para numerosas tareas y avances. Sin embargo, la evaluación y utilización de estos conjuntos de datos a menudo dependen de la calidad y disponibilidad de las instrucciones de etiquetado (LIs, por sus siglas en inglés) que definen las membresías de clase y brindan orientación a los anotadores. Desafortunadamente, las LIs accesibles públicamente rara vez se publican, lo que conduce a una falta de transparencia y reproducibilidad en la investigación de visión por computadora.
Esta falta de transparencia tiene implicaciones significativas. Esta falta de supervisión tiene implicaciones significativas, incluidos desafíos en la evaluación del modelo, abordar sesgos en las anotaciones y comprender las limitaciones impuestas por las políticas de instrucción.
Tenemos nueva investigación en nuestras manos que se ha realizado para abordar esta brecha. Es hora de conocer la tarea de Generación de Instrucciones de Etiquetado (LIG, por sus siglas en inglés).
LIG tiene como objetivo generar instrucciones de etiquetado (LIs) informativas y accesibles para conjuntos de datos sin instrucciones disponibles públicamente. Aprovechando modelos de visión y lenguaje a gran escala y proponiendo el marco Proxy Dataset Curator (PDC), la investigación busca generar instrucciones de etiquetado de alta calidad, mejorando así la transparencia y utilidad de los conjuntos de datos de referencia para la comunidad de visión por computadora.
LIG tiene como objetivo generar un conjunto de instrucciones que no solo definan las membresías de clase, sino que también proporcionen descripciones detalladas de los límites de clase, sinónimos, atributos y casos especiales. Estas instrucciones consisten en descripciones de texto y ejemplos visuales, ofreciendo un conjunto completo e informativo de instrucciones para etiquetar conjuntos de datos.
Para abordar el desafío de generar LIs, el marco propuesto aprovecha modelos de visión y lenguaje a gran escala como CLIP, ALIGN y Florence. Estos modelos proporcionan representaciones poderosas de texto e imágenes que permiten un rendimiento robusto en diversas tareas. El marco Proxy Dataset Curator (PDC) se introduce como una solución computacionalmente eficiente para LIG. Aprovecha VLMs preentrenados para recorrer rápidamente el conjunto de datos y recuperar los mejores pares de texto-imagen representativos de cada clase. Mediante la fusión multimodal de representaciones de texto e imagen en una sola consulta, el marco PDC demuestra su capacidad para generar instrucciones de etiquetado de alta calidad e informativas sin necesidad de una extensa curación manual.
Aunque el marco propuesto muestra promesa, existen varias limitaciones. Por ejemplo, el enfoque actual se centra en generar pares de texto e imagen, y no se propone nada para instrucciones multimodales más expresivas. Las instrucciones de texto generadas también pueden ser menos matizadas en comparación con las instrucciones generadas por humanos, pero se espera que los avances en los modelos de lenguaje y visión aborden esta limitación. Además, el marco actualmente no incluye ejemplos negativos, pero las versiones futuras podrían incorporarlos para proporcionar un conjunto de instrucciones más completo.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 4 Formas Sencillas de Mejorar al Instante tus Visualizaciones de Datos
- Explorando el mundo de la generación de música con IA
- La naturaleza contraintuitiva de las relaciones probabilísticas
- Cómo construir una pila de datos de 5 capas
- Graficando la red de Billy Corgan Analizando y mapeando las relaciones sociales con la biblioteca NetworkX de Python – Parte 4
- Reconocimiento de Imágenes vs. Visión por Computadora ¿Cuáles son las diferencias?
- Artistas detrás de los modelos de redes neuronales el impacto de la IA en la economía de los creadores