Construyendo un clasificador de toxicidad de comentarios utilizando los modelos Transformer de Hugging Face

Construcción de clasificador de toxicidad de comentarios con modelos Transformer de Hugging Face

Poniéndome al día en NLP y LLM (Parte I)

Foto de Brett Jordan en Unsplash

Introducción

Como científico de datos, nunca he tenido la oportunidad de explorar adecuadamente los últimos avances en Procesamiento del Lenguaje Natural (NLP, por sus siglas en inglés). Con el verano y el nuevo auge de los Modelos de Lenguaje Grande (LLM, por sus siglas en inglés) desde el comienzo del año, decidí que era hora de sumergirme en este campo y embarcarme en algunos mini-proyectos. Después de todo, no hay mejor manera de aprender que practicando.

A medida que comenzaba mi viaje, me di cuenta de que era complicado encontrar contenido que lleve al lector de la mano y vaya paso a paso hacia una comprensión profunda de los nuevos modelos de NLP con proyectos concretos. Así es como decidí comenzar esta nueva serie de artículos.

Construyendo un clasificador de toxicidad de comentarios utilizando los modelos de transformadores de HuggingFace

En este primer artículo, vamos a sumergirnos en la construcción de un clasificador de toxicidad de comentarios. Este proyecto está inspirado en la competencia “Jigsaw Rate Severity of Toxic Comments” que tuvo lugar en Kaggle el año pasado.

El objetivo de la competencia era construir un modelo con la capacidad de determinar qué comentario (de dos comentarios dados como entrada) es el más tóxico.

Para hacer esto, el modelo atribuirá a cada comentario pasado como entrada una puntuación, que determina su toxicidad relativa.

Lo que cubrirá este artículo

En este artículo, vamos a entrenar nuestro primer clasificador de NLP utilizando Pytorch y los transformadores de Hugging Face. No entraré en detalles sobre cómo funcionan los transformadores, sino más en detalles prácticos e implementaciones, e introduciré algunos conceptos que serán útiles para los próximos artículos de la serie.

En particular, veremos:

  • Cómo descargar un modelo desde Hugging Face Hub
  • Cómo personalizar y usar un Codificador
  • Construir y entrenar un clasificador de Pytorch a partir de uno de los modelos de Hugging Face

Este artículo está dirigido directamente a científicos de datos que deseen mejorar sus habilidades en NLP desde un punto de vista práctico. No haré mucho más…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

¿Qué tan fácil es engañar a las herramientas de detección de inteligencia artificial?

Los detectores ignoran todas las pistas de contexto, por lo que no procesan la existencia de un autómata realista en ...

Inteligencia Artificial

Investigadores del MIT presentan LILO un marco neuro-simbólico para aprender bibliotecas interpretables para la síntesis de programas

Los grandes modelos de lenguaje (LLMs) se están volviendo cada vez más expertos en programación en varios contextos, ...

Inteligencia Artificial

Análisis y optimización del rendimiento del modelo PyTorch - Parte 3

Esta es la tercera parte de una serie de publicaciones sobre el tema de analizar y optimizar modelos de PyTorch utili...

Ciencia de Datos

Haz que cada dólar de marketing cuente con la ciencia de datos.

La economía actual nos exige ser más diligentes en el gasto publicitario. Afortunadamente, los caminos viables para u...

Inteligencia Artificial

Conoce CutLER (Cut-and-LEaRn) Un enfoque simple de IA para entrenar modelos de detección de objetos y segmentación de instancias sin anotaciones humanas

La detección de objetos y la segmentación de imágenes son tareas cruciales en la visión por computadora e inteligenci...

Inteligencia Artificial

Proyecto Green Light de Google sincroniza los semáforos para reducir en un 30% las paradas

El Proyecto Green Light de Google se ha asociado con 12 ciudades en todo el mundo para proporcionar recomendaciones d...