Construyendo un clasificador de toxicidad de comentarios utilizando los modelos Transformer de Hugging Face
Construcción de clasificador de toxicidad de comentarios con modelos Transformer de Hugging Face
Poniéndome al día en NLP y LLM (Parte I)
Introducción
Como científico de datos, nunca he tenido la oportunidad de explorar adecuadamente los últimos avances en Procesamiento del Lenguaje Natural (NLP, por sus siglas en inglés). Con el verano y el nuevo auge de los Modelos de Lenguaje Grande (LLM, por sus siglas en inglés) desde el comienzo del año, decidí que era hora de sumergirme en este campo y embarcarme en algunos mini-proyectos. Después de todo, no hay mejor manera de aprender que practicando.
A medida que comenzaba mi viaje, me di cuenta de que era complicado encontrar contenido que lleve al lector de la mano y vaya paso a paso hacia una comprensión profunda de los nuevos modelos de NLP con proyectos concretos. Así es como decidí comenzar esta nueva serie de artículos.
Construyendo un clasificador de toxicidad de comentarios utilizando los modelos de transformadores de HuggingFace
En este primer artículo, vamos a sumergirnos en la construcción de un clasificador de toxicidad de comentarios. Este proyecto está inspirado en la competencia “Jigsaw Rate Severity of Toxic Comments” que tuvo lugar en Kaggle el año pasado.
El objetivo de la competencia era construir un modelo con la capacidad de determinar qué comentario (de dos comentarios dados como entrada) es el más tóxico.
- Llama 2 de Meta Revolucionando los modelos de lenguaje de código abierto para uso comercial
- Sobrevive al Apocalipsis del Mercado Laboral de IA Guía del Superviviente – Parte 2
- Uso de energía por consulta de ChatGPT
Para hacer esto, el modelo atribuirá a cada comentario pasado como entrada una puntuación, que determina su toxicidad relativa.
Lo que cubrirá este artículo
En este artículo, vamos a entrenar nuestro primer clasificador de NLP utilizando Pytorch y los transformadores de Hugging Face. No entraré en detalles sobre cómo funcionan los transformadores, sino más en detalles prácticos e implementaciones, e introduciré algunos conceptos que serán útiles para los próximos artículos de la serie.
En particular, veremos:
- Cómo descargar un modelo desde Hugging Face Hub
- Cómo personalizar y usar un Codificador
- Construir y entrenar un clasificador de Pytorch a partir de uno de los modelos de Hugging Face
Este artículo está dirigido directamente a científicos de datos que deseen mejorar sus habilidades en NLP desde un punto de vista práctico. No haré mucho más…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Reorganización de las conferencias de fútbol universitario – Regresión
- Prácticas recomendadas de Ingeniería de Software para escribir código de aprendizaje automático (ML) mantenible
- Serie de Aprendizaje No Supervisado Explorando Mapas Autoorganizados
- Las 10 mejores LLM de código abierto para utilizar en tu próxima solicitud de LLM
- Aprendizaje Automático de Grafos @ ICML 2023
- Explorando el lenguaje de programación Julia MongoDB
- Diferenciabilidad de una Función Dada su Gráfica