Grandes Modelos de Lenguaje, StructBERT — Incorporando Estructuras del Lenguaje en el Entrenamiento Previo

Grandes Modelos de Lenguaje StructBERT - Incorporando Estructuras del Lenguaje en el Entrenamiento Previo

Hacer que los modelos sean más inteligentes mediante la incorporación de mejores objetivos de aprendizaje

Introducción

Después de su primera aparición, BERT ha mostrado resultados fenomenales en una variedad de tareas de procesamiento del lenguaje natural (NLP), incluyendo análisis de sentimientos, similitud de textos, respuesta a preguntas, etc. Desde entonces, los investigadores han intentado mejorar aún más el rendimiento de BERT mediante modificaciones en su arquitectura, aumento de los datos de entrenamiento, aumento del tamaño de vocabulario o cambio del tamaño oculto de las capas.

Modelos de Lenguaje Grandes: BERT – Representaciones de Encriptador Bidireccional desde Transformador

Comprender cómo BERT crea embeddings de última generación

towardsdatascience.com

A pesar de la creación de otros potentes modelos basados en BERT como RoBERTa, los investigadores encontraron otra manera eficiente de aumentar el rendimiento de BERT que se discutirá en este artículo. Esto condujo al desarrollo de un nuevo modelo llamado StructBERT, que supera con confianza a BERT en los principales benchmarks.

La idea de StructBERT es relativamente simple y se centra en la modificación ligeramente de los objetivos de preentrenamiento de BERT.

En este artículo, repasaremos los detalles principales del artículo de StructBERT y entenderemos los objetivos originalmente modificados.

Preentrenamiento

En su mayor parte, StructBERT tiene los mismos principios arquitectónicos que BERT. Sin embargo, StructBERT presenta dos nuevos objetivos de preentrenamiento para ampliar el conocimiento lingüístico de BERT. El modelo se entrena en este objetivo junto con el modelamiento de lenguaje enmascarado. Veamos estos dos objetivos a continuación.

1. Objetivo de oración palabra

Los experimentos mostraron que la tarea de modelado del lenguaje enmascarado (MSM) juega un papel crucial en la configuración de BERT para ayudarlo a obtener un vasto conocimiento lingüístico. Después del preentrenamiento, BERT puede adivinar correctamente las palabras enmascaradas con alta precisión. Sin embargo, no es capaz de reconstruir correctamente una oración cuyas palabras están desordenadas. Para lograr este objetivo, los desarrolladores de StructBERT modificaron ligeramente el objetivo MSM al mezclar parcialmente los tokens de entrada.

Al igual que en el BERT original, una secuencia de entrada se tokeniza, enmascara y luego se mapea a embeddings de token, posición y segmento. Todos estos embeddings se suman para producir embeddings combinados que se alimentan a BERT.

Durante el enmascaramiento, se enmascara el 15% de los tokens seleccionados al azar y se utilizan para el modelamiento del lenguaje, al igual que en BERT. Pero justo después del enmascaramiento, StructBERT selecciona al azar el 5% de los tokens no enmascarados consecutivos y los mezcla dentro de cada subsecuencia. Por defecto, StructBERT opera en trigramas (K = 3).

Ejemplo de mezcla de trigramas

Cuando se calcula la última capa oculta, los embeddings de salida de los tokens enmascarados y mezclados se utilizan para predecir los tokens originales teniendo en cuenta sus posiciones iniciales.

En última instancia, el objetivo de oración palabra se combina con el objetivo de modelamiento de lenguaje enmascarado con pesos iguales.

2. Objetivo estructural de oraciones

La tarea de predicción de la siguiente oración, que es otra tarea de preentrenamiento de BERT, se considera relativamente simple. Dominarla no conduce a un impulso significativo en el rendimiento de BERT en la mayoría de las tareas posteriores. Por eso, los investigadores de StructBERT aumentaron la dificultad de este objetivo haciendo que BERT predijera el orden de las oraciones.

Tomando un par de oraciones secuenciales S₁ y S₂ en un documento, StructBERT las utiliza para construir un ejemplo de entrenamiento de una de tres formas posibles. Cada una de estas formas ocurre con una probabilidad igual de 1/3:

  • S₂ es seguido por S₁ (etiqueta 1);
  • S₁ es seguido por S₂ (etiqueta 2);
  • Se selecciona otra oración S₃ de un documento aleatorio y se sigue de S₁ (etiqueta 0).

Cada una de estas tres formas resulta en un par ordenado de oraciones que luego se concatenan. El token [CLS] se agrega antes del comienzo de la primera oración y los tokens [SEP] se usan para marcar el final de cada oración. BERT toma esta secuencia como entrada y produce un conjunto de embeddings en la última capa oculta.

La salida del embedding [CLS], que originalmente se usó en BERT para la tarea de predicción de la siguiente oración, ahora se utiliza en StructBERT para identificar correctamente una de las tres posibles etiquetas correspondientes a la forma original en que se construyó la secuencia de entrada.

Composición de las muestras de entrenamiento

Objetivo final

El objetivo final consiste en una combinación lineal de objetivos estructurales de palabras y oraciones.

BERT pre-entrenamiento que incluye objetivos estructurales de palabras y oraciones

Configuración de StructBERT

Todos los detalles principales de pre-entrenamiento son los mismos en BERT y StructBERT:

  • StructBERT utiliza el mismo corpus de pre-entrenamiento que BERT: Wikipedia en inglés (2500 millones de palabras) y BookCorpus (800 millones de palabras). La tokenización se realiza mediante el tokenizador WordPiece.
  • Optimizador: Adam (tasa de aprendizaje l = 1e-4, decaimiento de peso L₂ = 0.01, β₁ = 0.9, β₂ = 0.999).
  • Se realiza un calentamiento de la tasa de aprendizaje durante el primer 10% del total de pasos y luego se reduce de forma lineal.
  • Se utiliza una capa de dropout (α = 0.1) en todas las capas.
  • Función de activación: GELU.
  • El procedimiento de pre-entrenamiento se ejecuta durante 40 épocas.

Versiones de StructBERT

Al igual que BERT original, StructBERT tiene versiones base y large. Todas las configuraciones principales, como el número de capas, cabezas de atención, tamaño oculto y número de parámetros, corresponden exactamente a las versiones base y large de BERT, respectivamente.

Comparación de StructBERT base y StructBERT large

Conclusión

Al introducir un nuevo par de objetivos de entrenamiento, StructBERT alcanza nuevos límites en el procesamiento del lenguaje natural, superando consistentemente a BERT en diversas tareas. Se demostró que ambos objetivos desempeñan un papel indispensable en la configuración de StructBERT. Mientras que el objetivo estructural de palabras mejora principalmente el rendimiento del modelo en problemas de una sola oración, permitiendo que StructBERT pueda reconstruir el orden de las palabras, el objetivo estructural de oraciones mejora la capacidad de comprender las relaciones entre oraciones, lo cual es particularmente importante para las tareas de pares de oraciones.

Recursos

Todas las imágenes, a menos que se indique lo contrario, son del autor

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

El Hackathon ofrece un vistazo del potencial cuántico

El Centro Nacional de Computación Cuántica del Reino Unido recientemente llevó a cabo su segundo hackathon cuántico e...

Inteligencia Artificial

Las Pruebas Asistidas por Computadora Abordan el Flujo de Fluidos

Los investigadores utilizan computadoras para demostrar que las ecuaciones pueden explotar.

Inteligencia Artificial

Investigadores de la NTU de Singapur proponen IT3D un nuevo método de refinamiento de IA Plug-and-Play para la generación de texto a 3D.

Ha habido un notable progreso en el dominio de texto a imagen, lo que ha generado una oleada de entusiasmo dentro de ...

Inteligencia Artificial

Conoce a Meditron una suite de modelos de lenguaje médicos de código abierto basados en LLaMA-2 (Large Language Models para Medicina)

Una de las aplicaciones más emocionantes de los Modelos de Lenguaje Amplio (LLMs, por sus siglas en inglés) es en med...

Inteligencia Artificial

Descifrando la regulación génica con Deep Learning Un nuevo enfoque de IA para entender el empalme alternativo

El empalme alternativo es un proceso fundamental en la regulación génica, que permite que un solo gen produzca múltip...

Aprendizaje Automático

AI Ve lo que tú Ves Mind's Eye es un Modelo de IA que Puede Reconstruir Escaneos Cerebrales en Imágenes.

Desde hace tiempo, nos ha intrigado el desafío de entender cómo funciona nuestro cerebro. El campo de la neurociencia...