Anunciando Evaluación en el Hub

'Evaluación en el Hub anunciada'

TL;DR : ¡Hoy presentamos Evaluación en el Hub, una nueva herramienta impulsada por AutoTrain que te permite evaluar cualquier modelo en cualquier conjunto de datos en el Hub sin escribir una sola línea de código!

¡Evalúa todos los modelos 🔥🔥🔥!

El progreso en IA ha sido increíble, hasta el punto en que algunas personas ahora debaten seriamente si los modelos de IA pueden ser mejores que los humanos en ciertas tareas. Sin embargo, ese progreso no ha sido uniforme: para un aprendiz de máquina de hace varias décadas, el hardware y los algoritmos modernos pueden parecer increíbles, al igual que la cantidad de datos y recursos computacionales a nuestra disposición, pero la forma en que evaluamos estos modelos ha seguido siendo más o menos la misma.

Sin embargo, no es exagerado decir que la IA moderna atraviesa una crisis de evaluación. La evaluación adecuada en estos días implica medir muchos modelos, a menudo en muchos conjuntos de datos y con múltiples métricas. Pero hacerlo es innecesariamente complicado. Esto es especialmente cierto si nos importa la reproducibilidad, ya que los resultados autoinformados pueden haber sufrido errores inadvertidos, diferencias sutiles en la implementación o incluso peores.

Creemos que se puede lograr una mejor evaluación si nosotros, la comunidad, establecemos un mejor conjunto de mejores prácticas y tratamos de eliminar los obstáculos. Durante los últimos meses, hemos estado trabajando arduamente en Evaluación en el Hub: evaluar cualquier modelo en cualquier conjunto de datos utilizando cualquier métrica, con solo un clic. Para empezar, evaluamos cientos de modelos en varios conjuntos de datos clave y, utilizando la nueva y útil función de solicitud de extracción en el Hub, abrimos muchas solicitudes de extracción en las tarjetas de modelos para mostrar su rendimiento verificado. Los resultados de la evaluación se codifican directamente en los metadatos de la tarjeta del modelo, siguiendo un formato para todos los modelos en el Hub. ¡Echa un vistazo a la tarjeta del modelo de DistilBERT para ver cómo se ve!

En el Hub

Evaluación en el Hub abre la puerta a muchos casos de uso interesantes. Desde el científico de datos o el ejecutivo que necesita decidir qué modelo implementar, hasta el académico que intenta reproducir los resultados de un artículo en un nuevo conjunto de datos, pasando por el ético que desea comprender mejor los riesgos de implementación. Si tenemos que destacar tres escenarios principales de casos de uso iniciales, serían los siguientes:

Encontrar el mejor modelo para tu tarea Supongamos que sabes exactamente cuál es tu tarea y quieres encontrar el modelo adecuado para el trabajo. Puedes consultar la tabla de clasificación de un conjunto de datos representativo de tu tarea, que agrupa todos los resultados. ¡Eso es genial! ¿Y qué pasa si ese nuevo y sofisticado modelo en el que estás interesado aún no está en la tabla de clasificación para ese conjunto de datos? Simplemente ejecuta una evaluación para él, sin salir del Hub.

Evaluar modelos en tu nuevo conjunto de datos Ahora, ¿qué pasa si tienes un conjunto de datos completamente nuevo en el que deseas ejecutar baselines? Puedes subirlo al Hub y evaluar tantos modelos como desees. No se requiere código. Además, puedes estar seguro de que la forma en que estás evaluando estos modelos en tu conjunto de datos es exactamente la misma que cómo se han evaluado en otros conjuntos de datos.

Evaluar tu modelo en muchos otros conjuntos de datos relacionados O supongamos que tienes un nuevo modelo de respuesta a preguntas, entrenado en SQuAD. Hay cientos de conjuntos de datos diferentes de respuesta a preguntas para evaluar :scream: Puedes elegir los que te interesen y evaluar tu modelo directamente desde el Hub.

Ecosistema

Evaluación en el Hub encaja perfectamente en el ecosistema de Hugging Face.

Evaluación en el Hub está destinada a facilitarte la vida. Pero, por supuesto, hay mucho sucediendo en segundo plano. Lo que realmente nos gusta de Evaluación en el Hub es que se ajusta tan bien al ecosistema existente de Hugging Face que casi tuvimos que hacerlo. Los usuarios comienzan en las páginas de conjunto de datos, desde donde pueden iniciar evaluaciones o ver tablas de clasificación. La interfaz de envío de evaluación de modelos y las tablas de clasificación son espacios regulares de Hugging Face. El backend de evaluación está impulsado por AutoTrain, que abre una solicitud de extracción en el Hub para la tarjeta del modelo específico.

DogFood – Distinguir perros, muffins y pollo frito

Entonces, ¿cómo se ve en la práctica? Veamos un ejemplo. Supongamos que te dedicas a diferenciar perros, muffins y pollo frito (¡también conocido como dogfooding!).

Ejemplos de imágenes de perros y comida (muffins y pollo frito). Fuente / Fuente original.

Como muestra la imagen de arriba, para resolver este problema, necesitarás:

Un conjunto de datos de imágenes de perros, muffins y pollo frito
Clasificadores de imágenes que hayan sido entrenados con estas imágenes

Afortunadamente, tu equipo de ciencia de datos ha subido un conjunto de datos al Hugging Face Hub y ha entrenado varios modelos diferentes con él. Así que ahora solo necesitas elegir el mejor, ¡vamos a usar la Evaluación en el Hub para ver qué tan bien se desempeñan en el conjunto de prueba!

Configurando un trabajo de evaluación

Para comenzar, ve al Espacio model-evaluator y selecciona el conjunto de datos en el que deseas evaluar los modelos. Para nuestro conjunto de datos de imágenes de perros y comida, verás algo como la siguiente imagen:

Ahora bien, muchos conjuntos de datos en el Hub contienen metadatos que especifican cómo debe configurarse una evaluación (echa un vistazo a acronym_identification para ver un ejemplo). Esto te permite evaluar modelos con un solo clic, pero en nuestro caso te mostraremos cómo configurar la evaluación manualmente.

Haciendo clic en el botón de configuración avanzada, verás varias opciones para elegir:

La tarea, el conjunto de datos y la configuración de la división
La asignación de las columnas del conjunto de datos a un formato estándar
La elección de las métricas

Como se muestra en la imagen a continuación, configurar la tarea, el conjunto de datos y la división en la que evaluar es sencillo:

El siguiente paso es definir qué columnas del conjunto de datos contienen las imágenes y cuáles contienen las etiquetas:

Ahora que la tarea y el conjunto de datos están configurados, el último paso (opcional) es seleccionar las métricas con las que evaluar. Cada tarea está asociada con un conjunto de métricas por defecto. Por ejemplo, la siguiente imagen muestra que se calculará automáticamente la puntuación F1, la precisión, etc. Para añadir variedad, también calcularemos el coeficiente de correlación de Matthew, que proporciona una medida equilibrada del rendimiento del clasificador:

¡Y eso es todo lo que se necesita para configurar un trabajo de evaluación! Ahora solo necesitamos elegir algunos modelos para evaluar, echemos un vistazo.

Seleccionando modelos para evaluar

La Evaluación en el Hub vincula conjuntos de datos y modelos a través de etiquetas en los metadatos de la tarjeta del modelo. En nuestro ejemplo, tenemos tres modelos para elegir, así que seleccionémoslos todos.

Una vez seleccionados los modelos, simplemente ingresa tu nombre de usuario en Hugging Face Hub (para que te notifiquen cuando se complete la evaluación) y haz clic en el gran botón de Evaluar modelos:

Una vez que se envía un trabajo, los modelos se evaluarán automáticamente y se abrirá una solicitud de extracción en el Hub con los resultados de la evaluación:

También puedes copiar y pegar los metadatos de evaluación en la tarjeta del conjunto de datos para que tú y la comunidad puedan omitir la configuración manual la próxima vez.

Echa un vistazo al tablero de líderes

Para facilitar la comparación de modelos, la Evaluación en el Hub también proporciona tablas de clasificación que te permiten examinar qué modelos tienen un mejor rendimiento en cada división y métrica:

Parece que el Swin Transformer salió en primer lugar.

¡Prueba tú mismo!

Si deseas evaluar tus propias opciones de modelos, prueba la Evaluación en el Hub con estos conjuntos de datos populares:

Emotion para la clasificación de texto
MasakhaNER para el reconocimiento de entidades nombradas
SAMSum para la resumen de texto

El panorama general

Desde los inicios del aprendizaje automático, hemos evaluado modelos calculando alguna forma de precisión en un conjunto de prueba independiente e idénticamente distribuido. Bajo las presiones de la IA moderna, ese paradigma ahora comienza a mostrar serias fallas.

Los benchmarks están saturados, lo que significa que las máquinas superan a los humanos en ciertos conjuntos de pruebas, casi más rápido de lo que podemos crear nuevos. Sin embargo, se sabe que los sistemas de IA son frágiles y sufren, o incluso empeoran, graves sesgos maliciosos. La reproducibilidad es insuficiente. La apertura se considera como una idea secundaria. Mientras la gente se obsesiona con las clasificaciones, a menudo se pasan por alto consideraciones prácticas para implementar modelos, como la eficiencia y la equidad. El papel enormemente importante de los datos en el desarrollo del modelo aún no se toma lo suficientemente en serio. Además, las prácticas de preentrenamiento y aprendizaje contextual basado en indicaciones han difuminado lo que significa estar “en distribución” en primer lugar. El aprendizaje automático se está poniendo al día con estas cosas y esperamos ayudar al campo a avanzar con nuestro trabajo.

Próximos Pasos

Hace unas semanas, lanzamos la biblioteca Hugging Face Evaluate, con el objetivo de reducir las barreras para las mejores prácticas de evaluación del aprendizaje automático. También hemos estado organizando benchmarks, como RAFT y GEM. La evaluación en el Hub es el siguiente paso lógico en nuestros esfuerzos por permitir un futuro en el que los modelos se evalúen de manera más integral, en muchos ejes de evaluación, de manera confiable y reproducible. Estén atentos para más lanzamientos próximamente, ¡incluyendo más tareas y una herramienta de medición de datos nueva y mejorada!

¡Estamos emocionados de ver a dónde llevará esto la comunidad! Si desea ayudar, evalúe tantos modelos en tantos conjuntos de datos como desee. Y como siempre, por favor, denos muchos comentarios, ya sea en las pestañas de la comunidad o en los foros.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Anunciando Evaluación en el Hub

En el Hub

Ecosistema

DogFood – Distinguir perros, muffins y pollo frito

Configurando un trabajo de evaluación

Seleccionando modelos para evaluar

Echa un vistazo al tablero de líderes

¡Prueba tú mismo!

El panorama general

Próximos Pasos

Was this article helpful?

Acelera el entrenamiento de modelos grandes utilizando DeepSpeed

Comenzando con Embeddings

Inteligencia Artificial

Biosensor ofrece retroalimentación en tiempo real para la diálisis

Investigadores de la Universidad Johannes Kepler presentan GateLoop Avanzando en el modelado de secuencias con recurrencia lineal y transiciones de estado controladas por datos'.

Usando Inteligencia Artificial, científicos encuentran un medicamento que podría combatir infecciones resistentes a los medicamentos.

La IA está haciendo que la política sea más fácil, más barata y más peligrosa

Las empresas de internet informan sobre la mayor operación de denegación de servicio jamás registrada

Investigadores de IA de KAIST presentan KTRL+F una tarea de búsqueda en documentos aumentada con conocimiento que requiere la identificación en tiempo real de objetivos semánticos dentro de un documento.