Un nuevo estudio de investigación en IA presenta AttrPrompt un generador de datos de entrenamiento LLM para un nuevo paradigma en el aprendizaje de cero disparos.
AttrPrompt es un generador de datos de entrenamiento LLM que impulsa un nuevo paradigma en el aprendizaje de cero disparos, según un nuevo estudio de investigación en IA.
El rendimiento de los modelos de lenguaje grandes (LLMs) ha sido impresionante en muchas aplicaciones diferentes de procesamiento de lenguaje natural (NLP). En estudios recientes, se ha propuesto que los LLMs sean generadores de datos de entrenamiento específicos de tareas para reducir la necesidad de datos y anotaciones específicos de tareas, especialmente para la clasificación de texto. Aunque estos esfuerzos han demostrado la utilidad de los LLMs como productores de datos, se han centrado en gran medida en mejorar la etapa de entrenamiento, cuando los datos generados se utilizan para entrenar modelos específicos de tareas, dejando intacto el proceso de creación de datos aguas arriba. Para consultar a los LLMs, el método predominante utiliza una única indicación condicional de clase, lo cual puede reducir la variedad de datos proporcionados y perpetuar los sesgos sistemáticos inherentes de los LLMs.
Un nuevo estudio realizado por Georgia Tech, University of Washington, UIUC y Google Research analiza cuatro difíciles tareas de clasificación de temas con gran cardinalidad de diferentes dominios. Ancla el LLM a ChatGPT por su capacidad para escribir lenguaje de alta calidad y similar al humano. El equipo utiliza principalmente los atributos de los datos para evaluar el nivel de sesgo y diversidad dentro del conjunto de entrenamiento creado. Específicamente, los atributos de los datos consisten en varias dimensiones de atributos y varios valores de atributos, cada uno de los cuales representa una posible realización de los propios atributos.
Los investigadores utilizaron un clasificador de atributos entrenado para analizar el sesgo de atributos en el conjunto de datos generado por SimPrompt. Investigaron cómo diferentes atributos pueden afectar los resultados finales de un modelo. Para generar datos atribuidos, utilizaron ChatGPT y agregaron restricciones a las preguntas con ciertos valores para las características necesarias. Los investigadores encontraron que los modelos entrenados en conjuntos de datos generados con características aleatorias tienen un rendimiento significativamente mejor que aquellos entrenados en conjuntos de datos con atributos fijos, destacando la importancia de la variación de atributos en el conjunto de datos generado.
- 4 Ideas Estadísticas Importantes que Deberías Comprender en un Mundo Impulsado por los Datos
- 5 Lecciones esenciales para los científicos de datos junior que aprendí en Spotify (Parte 2)
- Conquistar reintentos en Python utilizando Tenacity Un tutorial de principio a fin
El equipo sugiere generar datos utilizando indicaciones diversamente atribuidas para reducir los sesgos de atributos y aumentar la diversidad de atributos de los datos generados. Utilizando el LLM, se emplea primero un proceso interactivo y semiautomatizado para determinar las dimensiones y valores de atributos adecuados para una tarea de clasificación determinada. La indicación condicional de clase estándar para las consultas de datos de LLM se reemplaza luego por consultas más complejas generadas por propiedades combinadas al azar. Han acuñado el término “AttrPrompt” para describir estos diversos desencadenantes atribuibles.
Los investigadores evalúan empíricamente los conjuntos de datos creados en las cuatro tareas de clasificación comparando los resultados de los modelos entrenados en dos escenarios: 1) solo en el conjunto de datos generado y 2) en un conjunto de datos combinado, que incluye el conjunto de entrenamiento genuino y el conjunto generado. El conjunto de datos creado utilizando AttrPrompt funciona mucho mejor que el conjunto de datos creado con SimPrompt en ambos casos. Sus resultados también muestran que AttrPrompt es superior a SimPrompt en cuanto a eficiencia de datos/presupuesto y flexibilidad con respecto a una amplia gama de tamaños de modelos y estrategias de LLM-como-generador-de-datos-de-entrenamiento.
AttrPrompt es notable porque proporciona el mismo rendimiento que SimPrompt, pero solo requiere el 5% del costo de consulta de ChatGPT que SimPrompt requiere. Por último, demuestran por primera vez que AttrPrompt supera a SimPrompt en todos los criterios de evaluación al extender el paradigma de LLM-como-generador-de-datos-de-entrenamiento a los problemas de clasificación de múltiples etiquetas más difíciles.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Cómo construir una plataforma de análisis semi-estructurado en tiempo real en Snowflake
- ¿Es la Ciencia de Datos una buena carrera?
- ¿Cómo cambiar de carrera de analista de datos a científico de datos?
- Narración de historias con gráficos
- ¿Qué es los datos sintéticos?
- El enemigo invisible de la IA enfrentando el desafío de la materia oscura digital
- Convirtiendo viejos mapas en modelos digitales en 3D de vecindarios perdidos.