Grandes Modelos de Lenguaje, StructBERT — Incorporando Estructuras del Lenguaje en el Entrenamiento Previo
Grandes Modelos de Lenguaje StructBERT - Incorporando Estructuras del Lenguaje en el Entrenamiento Previo
Hacer que los modelos sean más inteligentes mediante la incorporación de mejores objetivos de aprendizaje
Introducción
Después de su primera aparición, BERT ha mostrado resultados fenomenales en una variedad de tareas de procesamiento del lenguaje natural (NLP), incluyendo análisis de sentimientos, similitud de textos, respuesta a preguntas, etc. Desde entonces, los investigadores han intentado mejorar aún más el rendimiento de BERT mediante modificaciones en su arquitectura, aumento de los datos de entrenamiento, aumento del tamaño de vocabulario o cambio del tamaño oculto de las capas.
Modelos de Lenguaje Grandes: BERT – Representaciones de Encriptador Bidireccional desde Transformador
Comprender cómo BERT crea embeddings de última generación
towardsdatascience.com
- Las 5 mejores APIs de difusión estable para una integración fácil de aplicaciones
- Altman está de vuelta El CEO de OpenAI triunfa sobre la turbulencia en la sala de juntas
- Tutorial de Sklearn Módulo 1
A pesar de la creación de otros potentes modelos basados en BERT como RoBERTa, los investigadores encontraron otra manera eficiente de aumentar el rendimiento de BERT que se discutirá en este artículo. Esto condujo al desarrollo de un nuevo modelo llamado StructBERT, que supera con confianza a BERT en los principales benchmarks.
La idea de StructBERT es relativamente simple y se centra en la modificación ligeramente de los objetivos de preentrenamiento de BERT.
En este artículo, repasaremos los detalles principales del artículo de StructBERT y entenderemos los objetivos originalmente modificados.
Preentrenamiento
En su mayor parte, StructBERT tiene los mismos principios arquitectónicos que BERT. Sin embargo, StructBERT presenta dos nuevos objetivos de preentrenamiento para ampliar el conocimiento lingüístico de BERT. El modelo se entrena en este objetivo junto con el modelamiento de lenguaje enmascarado. Veamos estos dos objetivos a continuación.
1. Objetivo de oración palabra
Los experimentos mostraron que la tarea de modelado del lenguaje enmascarado (MSM) juega un papel crucial en la configuración de BERT para ayudarlo a obtener un vasto conocimiento lingüístico. Después del preentrenamiento, BERT puede adivinar correctamente las palabras enmascaradas con alta precisión. Sin embargo, no es capaz de reconstruir correctamente una oración cuyas palabras están desordenadas. Para lograr este objetivo, los desarrolladores de StructBERT modificaron ligeramente el objetivo MSM al mezclar parcialmente los tokens de entrada.
Al igual que en el BERT original, una secuencia de entrada se tokeniza, enmascara y luego se mapea a embeddings de token, posición y segmento. Todos estos embeddings se suman para producir embeddings combinados que se alimentan a BERT.
Durante el enmascaramiento, se enmascara el 15% de los tokens seleccionados al azar y se utilizan para el modelamiento del lenguaje, al igual que en BERT. Pero justo después del enmascaramiento, StructBERT selecciona al azar el 5% de los tokens no enmascarados consecutivos y los mezcla dentro de cada subsecuencia. Por defecto, StructBERT opera en trigramas (K = 3).
![Ejemplo de mezcla de trigramas](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*QM-Otb1zUtHj75W03PM0wA.png)
Cuando se calcula la última capa oculta, los embeddings de salida de los tokens enmascarados y mezclados se utilizan para predecir los tokens originales teniendo en cuenta sus posiciones iniciales.
En última instancia, el objetivo de oración palabra se combina con el objetivo de modelamiento de lenguaje enmascarado con pesos iguales.
2. Objetivo estructural de oraciones
La tarea de predicción de la siguiente oración, que es otra tarea de preentrenamiento de BERT, se considera relativamente simple. Dominarla no conduce a un impulso significativo en el rendimiento de BERT en la mayoría de las tareas posteriores. Por eso, los investigadores de StructBERT aumentaron la dificultad de este objetivo haciendo que BERT predijera el orden de las oraciones.
Tomando un par de oraciones secuenciales S₁ y S₂ en un documento, StructBERT las utiliza para construir un ejemplo de entrenamiento de una de tres formas posibles. Cada una de estas formas ocurre con una probabilidad igual de 1/3:
- S₂ es seguido por S₁ (etiqueta 1);
- S₁ es seguido por S₂ (etiqueta 2);
- Se selecciona otra oración S₃ de un documento aleatorio y se sigue de S₁ (etiqueta 0).
Cada una de estas tres formas resulta en un par ordenado de oraciones que luego se concatenan. El token [CLS] se agrega antes del comienzo de la primera oración y los tokens [SEP] se usan para marcar el final de cada oración. BERT toma esta secuencia como entrada y produce un conjunto de embeddings en la última capa oculta.
La salida del embedding [CLS], que originalmente se usó en BERT para la tarea de predicción de la siguiente oración, ahora se utiliza en StructBERT para identificar correctamente una de las tres posibles etiquetas correspondientes a la forma original en que se construyó la secuencia de entrada.
![Composición de las muestras de entrenamiento](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*y2gN6ZzlUqygAQom6KNDAA.png)
Objetivo final
El objetivo final consiste en una combinación lineal de objetivos estructurales de palabras y oraciones.
![BERT pre-entrenamiento que incluye objetivos estructurales de palabras y oraciones](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*loyCJp0jkVuLUq__eqvVbA.png)
Configuración de StructBERT
Todos los detalles principales de pre-entrenamiento son los mismos en BERT y StructBERT:
- StructBERT utiliza el mismo corpus de pre-entrenamiento que BERT: Wikipedia en inglés (2500 millones de palabras) y BookCorpus (800 millones de palabras). La tokenización se realiza mediante el tokenizador WordPiece.
- Optimizador: Adam (tasa de aprendizaje l = 1e-4, decaimiento de peso L₂ = 0.01, β₁ = 0.9, β₂ = 0.999).
- Se realiza un calentamiento de la tasa de aprendizaje durante el primer 10% del total de pasos y luego se reduce de forma lineal.
- Se utiliza una capa de dropout (α = 0.1) en todas las capas.
- Función de activación: GELU.
- El procedimiento de pre-entrenamiento se ejecuta durante 40 épocas.
Versiones de StructBERT
Al igual que BERT original, StructBERT tiene versiones base y large. Todas las configuraciones principales, como el número de capas, cabezas de atención, tamaño oculto y número de parámetros, corresponden exactamente a las versiones base y large de BERT, respectivamente.
![Comparación de StructBERT base y StructBERT large](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*X5y0ZyNKC32DA3pwp-8mLg.png)
Conclusión
Al introducir un nuevo par de objetivos de entrenamiento, StructBERT alcanza nuevos límites en el procesamiento del lenguaje natural, superando consistentemente a BERT en diversas tareas. Se demostró que ambos objetivos desempeñan un papel indispensable en la configuración de StructBERT. Mientras que el objetivo estructural de palabras mejora principalmente el rendimiento del modelo en problemas de una sola oración, permitiendo que StructBERT pueda reconstruir el orden de las palabras, el objetivo estructural de oraciones mejora la capacidad de comprender las relaciones entre oraciones, lo cual es particularmente importante para las tareas de pares de oraciones.
Recursos
Todas las imágenes, a menos que se indique lo contrario, son del autor
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Investigadores de Stanford innovan en el modelo de lenguaje de gran escala para la veracidad de los hechos Rankings de preferencia automáticos y avances en NLP para la reducción de errores
- Incrustación de texto y recuperación de similitud de frases a gran escala con Amazon SageMaker JumpStart
- La nueva función de diseño de Amazon Textract introduce eficiencias en tareas de procesamiento de documentos de inteligencia artificial generales y generativos.
- Aprendizaje automático con MATLAB y Amazon SageMaker
- Cómo Amazon Music utiliza SageMaker con NVIDIA para optimizar el rendimiento y el costo del entrenamiento y la inferencia de machine learning.
- Los hackers están explotando una falla en el software de Citrix a pesar de la solución
- Corea del Sur permite que los robots autónomos utilicen las aceras