Construyendo un clasificador de toxicidad de comentarios utilizando los modelos Transformer de Hugging Face

Construcción de clasificador de toxicidad de comentarios con modelos Transformer de Hugging Face

Poniéndome al día en NLP y LLM (Parte I)

Introducción

Como científico de datos, nunca he tenido la oportunidad de explorar adecuadamente los últimos avances en Procesamiento del Lenguaje Natural (NLP, por sus siglas en inglés). Con el verano y el nuevo auge de los Modelos de Lenguaje Grande (LLM, por sus siglas en inglés) desde el comienzo del año, decidí que era hora de sumergirme en este campo y embarcarme en algunos mini-proyectos. Después de todo, no hay mejor manera de aprender que practicando.

A medida que comenzaba mi viaje, me di cuenta de que era complicado encontrar contenido que lleve al lector de la mano y vaya paso a paso hacia una comprensión profunda de los nuevos modelos de NLP con proyectos concretos. Así es como decidí comenzar esta nueva serie de artículos.

Construyendo un clasificador de toxicidad de comentarios utilizando los modelos de transformadores de HuggingFace

En este primer artículo, vamos a sumergirnos en la construcción de un clasificador de toxicidad de comentarios. Este proyecto está inspirado en la competencia “Jigsaw Rate Severity of Toxic Comments” que tuvo lugar en Kaggle el año pasado.

El objetivo de la competencia era construir un modelo con la capacidad de determinar qué comentario (de dos comentarios dados como entrada) es el más tóxico.

Para hacer esto, el modelo atribuirá a cada comentario pasado como entrada una puntuación, que determina su toxicidad relativa.

Lo que cubrirá este artículo

En este artículo, vamos a entrenar nuestro primer clasificador de NLP utilizando Pytorch y los transformadores de Hugging Face. No entraré en detalles sobre cómo funcionan los transformadores, sino más en detalles prácticos e implementaciones, e introduciré algunos conceptos que serán útiles para los próximos artículos de la serie.

En particular, veremos:

Cómo descargar un modelo desde Hugging Face Hub
Cómo personalizar y usar un Codificador
Construir y entrenar un clasificador de Pytorch a partir de uno de los modelos de Hugging Face

Este artículo está dirigido directamente a científicos de datos que deseen mejorar sus habilidades en NLP desde un punto de vista práctico. No haré mucho más…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Construyendo un clasificador de toxicidad de comentarios utilizando los modelos Transformer de Hugging Face

Poniéndome al día en NLP y LLM (Parte I)

Introducción

Construyendo un clasificador de toxicidad de comentarios utilizando los modelos de transformadores de HuggingFace

Lo que cubrirá este artículo

Was this article helpful?

Llama 2 de Meta Revolucionando los modelos de lenguaje de código abierto para uso comercial

Cómo construir tuberías de aprendizaje automático, ¡visualmente y rápidamente!

Inteligencia Artificial

¿Qué tan fácil es engañar a las herramientas de detección de inteligencia artificial?

Investigadores del MIT presentan LILO un marco neuro-simbólico para aprender bibliotecas interpretables para la síntesis de programas

Análisis y optimización del rendimiento del modelo PyTorch - Parte 3

Haz que cada dólar de marketing cuente con la ciencia de datos.

Conoce CutLER (Cut-and-LEaRn) Un enfoque simple de IA para entrenar modelos de detección de objetos y segmentación de instancias sin anotaciones humanas

Proyecto Green Light de Google sincroniza los semáforos para reducir en un 30% las paradas