BERT 101 – Modelo de Procesamiento de Lenguaje Natural (NLP) de Última Generación Explicado

BERT 101 - Explicación del último modelo de Procesamiento de Lenguaje Natural (NLP)

¿Qué es BERT?

BERT, abreviatura de Bidirectional Encoder Representations from Transformers, es un modelo de Aprendizaje Automático (ML) para el procesamiento del lenguaje natural. Fue desarrollado en 2018 por investigadores de Google AI Language y funciona como una solución de todo en uno para más de 11 tareas de lenguaje comunes, como el análisis de sentimientos y el reconocimiento de entidades nombradas.

El lenguaje ha sido históricamente difícil para que las computadoras lo ‘entiendan’. Claro, las computadoras pueden recopilar, almacenar y leer entradas de texto, pero carecen de contexto básico del lenguaje.

Entonces, llegó el Procesamiento del Lenguaje Natural (NLP, por sus siglas en inglés): el campo de la inteligencia artificial que tiene como objetivo que las computadoras lean, analicen, interpreten y deriven significado del texto y las palabras habladas. Esta práctica combina lingüística, estadísticas y Aprendizaje Automático para ayudar a las computadoras a ‘entender’ el lenguaje humano.

Tradicionalmente, las tareas individuales de NLP se han resuelto mediante modelos individuales creados para cada tarea específica. ¡Hasta que llegó BERT!

BERT revolucionó el espacio de NLP al resolver más de 11 tareas de NLP comunes (y mejor que los modelos anteriores), convirtiéndose en el comodín de todos los oficios de NLP.

En esta guía, aprenderás qué es BERT, por qué es diferente y cómo empezar a usar BERT:

¿Para qué se utiliza BERT?
¿Cómo funciona BERT?
Tamaño y arquitectura del modelo BERT
Rendimiento de BERT en tareas de lenguaje comunes
Impacto ambiental del aprendizaje profundo
El poder del código abierto de BERT
Cómo empezar a usar BERT
Preguntas frecuentes sobre BERT
Conclusión

¡Comencemos! 🚀

1. ¿Para qué se utiliza BERT?

BERT se puede utilizar en una amplia variedad de tareas de lenguaje:

Puede determinar si las críticas de una película son positivas o negativas (Análisis de sentimientos)
Ayuda a los chatbots a responder tus preguntas (Respuesta a preguntas)
Predice tu texto al escribir un correo electrónico (Gmail) (Predicción de texto)
Puede escribir un artículo sobre cualquier tema con solo unos pocos enunciados de entrada (Generación de texto)
Puede resumir rápidamente contratos legales largos (Resumen)
Puede diferenciar palabras que tienen múltiples significados (como ‘banco’) según el texto circundante (Resolución de polisemia)

Hay muchas más tareas de lenguaje/NLP y más detalles detrás de cada una de ellas.

Dato curioso: ¡Interactúas con NLP (y probablemente con BERT) casi todos los días!

NLP está detrás de Google Translate, asistentes de voz (Alexa, Siri, etc.), chatbots, búsquedas de Google, GPS operado por voz y más.

1.1 Ejemplo de BERT

BERT ayuda a Google a mostrar mejores resultados (en inglés) para casi todas las búsquedas desde noviembre de 2020.

Aquí tienes un ejemplo de cómo BERT ayuda a Google a entender mejor búsquedas específicas como:

Fuente

Antes de BERT, Google mostraba información sobre cómo obtener una receta médica.

Después de BERT, Google comprende que “para alguien” se refiere a recoger una receta para otra persona y los resultados de la búsqueda ahora ayudan a responder eso.

2. ¿Cómo funciona BERT?

BERT funciona aprovechando lo siguiente:

2.1 Grandes cantidades de datos de entrenamiento

Un conjunto de datos masivo de 3.3 mil millones de palabras ha contribuido al éxito continuo de BERT.

BERT fue entrenado específicamente en Wikipedia (~2.5 mil millones de palabras) y BooksCorpus de Google (~800 millones de palabras). Estos grandes conjuntos de datos informativos contribuyeron al profundo conocimiento de BERT no solo del idioma inglés, sino también de nuestro mundo. 🚀

Entrenar con un conjunto de datos tan grande lleva mucho tiempo. El entrenamiento de BERT fue posible gracias a la novedosa arquitectura Transformer y se aceleró utilizando TPUs (Unidades de Procesamiento Tensorial, circuitos personalizados de Google construidos específicamente para modelos de ML grandes). Se entrenaron 64 TPUs en BERT durante 4 días.

Nota: La demanda de modelos BERT más pequeños está aumentando para utilizar BERT en entornos computacionales más pequeños (como teléfonos móviles y computadoras personales). Se lanzaron 23 modelos BERT más pequeños en marzo de 2020. DistilBERT ofrece una versión más ligera de BERT; se ejecuta un 60% más rápido mientras mantiene más del 95% del rendimiento de BERT.

2.2 ¿Qué es un Modelo de Lenguaje Enmascarado?

MLM permite/obliga el aprendizaje bidireccional a partir de texto al enmascarar (ocultar) una palabra en una oración y obligar a BERT a utilizar de manera bidireccional las palabras a ambos lados de la palabra enmascarada para predecir la palabra oculta. ¡Esto nunca antes se había hecho!

Dato Curioso: ¡Nosotros hacemos esto naturalmente como humanos!

Ejemplo de Modelo de Lenguaje Enmascarado:

Imagina que tu amigo te llama mientras acampas en el Parque Nacional Glacier y la señal se comienza a cortar. Lo último que escuchas antes de que se corte la llamada es:

Amigo: “¡Caray! Estoy pescando y un truchón acaba de [espacio en blanco] mi línea!”

¿Puedes adivinar qué dijo tu amigo?

Naturalmente, puedes predecir la palabra que falta considerando las palabras en ambos sentidos antes y después de la palabra faltante como pistas de contexto (además de tu conocimiento histórico de cómo funciona la pesca). ¿Adivinaste que tu amigo dijo ‘rompió’? Eso es lo que nosotros también predijimos, pero incluso nosotros los humanos podemos cometer errores con algunos de estos métodos.

Nota: Por eso a menudo verás una comparación de “Rendimiento Humano” en las puntuaciones de rendimiento de un modelo de lenguaje. ¡Y sí, modelos más nuevos como BERT pueden ser más precisos que los humanos! 🤯

La metodología bidireccional que utilizaste para completar la palabra [espacio en blanco] de arriba es similar a cómo BERT logra una precisión de vanguardia. Durante el entrenamiento, se ocultan aleatoriamente el 15% de las palabras tokenizadas y la tarea de BERT es predecir correctamente las palabras ocultas. De esta manera, se enseña directamente al modelo sobre el idioma inglés (y las palabras que usamos). ¿No es genial?

Juega con las predicciones de enmascaramiento de BERT:

9. Conclusión

BERT es un modelo de lenguaje altamente complejo y avanzado que ayuda a las personas a automatizar la comprensión del lenguaje. Su capacidad para lograr un rendimiento de vanguardia se basa en el entrenamiento con grandes cantidades de datos y en el aprovechamiento de la arquitectura de los Transformadores para revolucionar el campo del Procesamiento del Lenguaje Natural.

Gracias a la biblioteca de código abierto de BERT y a los increíbles esfuerzos de la comunidad de IA para seguir mejorando y compartir nuevos modelos de BERT, el futuro de los hitos inexplorados del PLN luce brillante.

¿Qué crearás con BERT?

Aprende cómo ajustar BERT para tu caso de uso particular 🤗

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

BERT 101 – Modelo de Procesamiento de Lenguaje Natural (NLP) de Última Generación Explicado

¿Qué es BERT?

1. ¿Para qué se utiliza BERT?

1.1 Ejemplo de BERT

2. ¿Cómo funciona BERT?

2.1 Grandes cantidades de datos de entrenamiento

2.2 ¿Qué es un Modelo de Lenguaje Enmascarado?

9. Conclusión

Was this article helpful?

Generando Texto Guiado con Búsqueda Restringida de Haz en 🤗 Transformers

¡Gradio se une a Hugging Face!

Inteligencia Artificial

Inflection-1 La Próxima Frontera de la IA Personal

Presentamos OpenChat La plataforma gratuita y sencilla para construir chatbots personalizados en minutos.

Keshav Pingali reconocido con el Premio ACM-IEEE CS Ken Kennedy

¿Desvelando el poder de Meta's Llama 2 ¿Un salto adelante en la IA generativa?

Dentro de XGen-Imagen-1 Cómo Salesforce Research construyó, entrenó y evaluó un modelo masivo de texto a imagen.

Presentamos LegalBench un punto de referencia de IA de código abierto construido de manera colaborativa para evaluar el razonamiento legal en modelos de lenguaje grandes en inglés.