GPT-3 ¿Aprendizaje de pocos ejemplos para modelos de lenguaje?

En los últimos años, la industria de IA y ML ha presenciado un rápido crecimiento en el desarrollo y aplicación de sistemas de PLN, ya que los investigadores han logrado implementar prácticas de PLN de manera altamente flexible y agnóstica a la tarea para tareas de transferencia.

Inicialmente, fueron las representaciones de una sola capa las que utilizaron vectores de palabras y luego se alimentaron a la arquitectura específica de la tarea. A continuación, fue la arquitectura de RNN la que utilizó representaciones de múltiples capas y estado contextual para formar mejores representaciones. Y más recientemente, tenemos los modelos de lenguaje de transferencia o modelos recurrentes pre-entrenados que han eliminado por completo la necesidad de arquitecturas específicas de tarea mediante el ajuste fino de estas redes.

Los modelos de lenguaje de transferencia han demostrado ser un punto de inflexión importante en la industria de PLN, ya que han resultado en un tremendo progreso en tareas desafiantes como responder preguntas, comprender lecturas o bloques de texto, implicación textual y mucho más.

Sin embargo, a pesar de sus ventajas, los modelos de lenguaje de transferencia tienen una limitación importante, ya que requieren ajuste fino específico de la tarea o conjunto de datos específico de la tarea para lograr el rendimiento deseado en una tarea. Además, los modelos de lenguaje de transferencia también requieren que los desarrolladores ajusten los conjuntos de datos a cientos de miles de ejemplos específicos de una tarea en particular.

No hace falta decir que eliminar el requisito de conjunto de datos específico de la tarea y ajuste fino específico de la tarea sería altamente deseable y beneficioso para la industria de PLN por numerosas razones.

Problemas con los Modelos de Lenguaje de Transferencia o Modelos Recurrentes Pre-entrenados Existente

Limitando la Practicidad y Aplicabilidad

En primer lugar, el requisito de un gran conjunto de datos con datos etiquetados para cada tarea limita la aplicabilidad y practicidad de los modelos de lenguaje. Los modelos de lenguaje encuentran sus aplicaciones en una amplia variedad de tareas que van desde la generación de una historia corta hasta la corrección de errores gramaticales o la generación de ejemplos sobre un concepto. A veces, es una tarea desafiante recopilar un gran conjunto de datos supervisados con datos etiquetados, especialmente cuando el proceso debe repetirse para cada tarea individual.

Explotación de Correlaciones Espurias en los Datos de Entrenamiento

Las limitaciones y estrechez de la distribución de entrenamiento junto con la expresividad del modelo pueden resultar en un crecimiento fundamental en el potencial para explotar correlaciones espurias en los datos de entrenamiento. El potencial para explotar los datos de entrenamiento puede provocar problemas durante el paradigma de ajuste fino y pre-entrenamiento porque los modelos de lenguaje de transferencia están diseñados de tal manera que absorben una gran cantidad de información durante el pre-entrenamiento.

Además, el trabajo en modelos anteriores ha indicado que los modelos grandes no resultan en una mejor generalización fuera de la distribución en cada ocasión. Además, también se ha indicado que la generalización lograda bajo dicho paradigma puede resultar en un rendimiento deficiente principalmente porque el modelo es altamente específico de los datos de entrenamiento y no puede funcionar bien en situaciones más allá del alcance de los datos de entrenamiento.

Comparación con el Aprendizaje Humano

Finalmente, en comparación con los modelos de lenguaje de transferencia, los humanos no requieren un gran conjunto de datos de entrenamiento cuando se trata de aprender la mayoría de las tareas de lenguaje. La mayoría de las veces, una breve directiva en el lenguaje natural de una persona o una pequeña demostración de la tarea lingüística es suficiente para que un humano comprenda y realice una tarea lingüística con cierto nivel de competitividad.

La capacidad de adaptación de los humanos tiene numerosas ventajas prácticas, ya que les permite cambiar entre diferentes conjuntos de habilidades o combinarlos para desempeñarse mejor durante un dialecto, algo que está más allá de las capacidades de los sistemas de PLN actuales.

Afrontar los problemas con el Metaaprendizaje y GPT-3

Una posible solución a los desafíos anteriores es el uso del metaaprendizaje, un concepto en el ML moderno que permite que un modelo desarrolle un conjunto más amplio y más amplio de habilidades y capacidad para reconocer patrones durante el entrenamiento, y luego utiliza estas habilidades aprendidas durante la interferencia para adaptarse rápidamente o reconocer la tarea requerida.

El metaaprendizaje se implementa en la arquitectura del modelo de lenguaje mediante una técnica llamada “aprendizaje en contexto” que utiliza la entrada de texto de un modelo de lenguaje pre-entrenado como especificación de tarea. En el proceso, el modelo se condiciona a una instrucción en lenguaje natural e incluso puede usar algunas demostraciones, y se espera que el modelo complete el resto de la tarea prediciendo los siguientes pasos.

El único problema importante con el metaaprendizaje es que, aunque ha mostrado un potencial positivo, aún es inferior al enfoque de ajuste fino en la arquitectura del lenguaje natural y necesita una mejora adicional para convertirse en un método práctico para superar las tareas del lenguaje.

Además del aprendizaje meta, otro método que está ganando popularidad es aumentar la capacidad de los modelos de lenguaje transformador. En los últimos años, los modelos de transferencia han experimentado un aumento sustancial en su capacidad con el modelo RNSS18 con 100 millones de parámetros, el modelo DCLT18 con 300 millones de parámetros, el modelo RWC19 con 1,5 mil millones de parámetros, el modelo SSP19 con 8 mil millones de parámetros, el modelo RSR19 con 11 mil millones de parámetros y el modelo TUR20 con 17 mil millones de parámetros.

Aumentar la capacidad del modelo o aumentar los parámetros históricamente ha dado lugar a mejoras en la síntesis de texto, y ha habido una indicación de que la pérdida de registro, que se correlaciona con las tareas posteriores, también sigue una tendencia suave de mejora con la escala.

Eso nos lleva al modelo GPT-3, que tiene más de 175 mil millones de parámetros y, cuando se lanzó, era el modelo de transferencia de lenguaje con mayor capacidad. Ahora hablemos del modelo GPT-3.

Una introducción al modelo GPT-3

El GPT-3 es un modelo de lenguaje autoagresivo con más de 175 mil millones de parámetros que fue lanzado por OpenAI en 2020. GPT-3 también se clasifica como un modelo de lenguaje grande que, al igual que su predecesor, el modelo GPT-2, es un modelo transformador de aprendizaje profundo solo decodificador que utiliza una arquitectura basada en convoluciones para generar datos de texto.

El modelo GPT-3 mide sus propias habilidades de aprendizaje en contexto, y se evalúa en más de dos docenas de conjuntos de datos de procesamiento del lenguaje natural y múltiples tareas novedosas. Para cada tarea individual, el modelo GPT-3 se evalúa en tres condiciones:

Aprendizaje de pocas muestras o aprendizaje en contexto: En el aprendizaje de pocas muestras, el modelo GPT-3 permite tantas distribuciones que se ajusten bien a la ventana de contexto del modelo.
Aprendizaje de una sola muestra: En el aprendizaje de una sola muestra, el modelo solo permite una demostración.
Aprendizaje de cero muestras: En el aprendizaje de cero muestras, no hay demostraciones y solo hay una instrucción en lenguaje natural que se alimenta al modelo.

En términos generales, el modelo GPT-3 logra un rendimiento deseado en configuraciones de cero muestras y una sola muestra, y en la configuración de pocas muestras, supera la mayoría de las veces a los modelos de transferencia de última generación. Además, el modelo GPT-3 se desempeña bien en configuraciones de una sola muestra y cero muestras en tareas de lenguaje natural diseñadas para probar el razonamiento sobre la marcha o que requieren atención rápida, como el uso de palabras nuevas después de una oración, desordenar palabras o realizar operaciones aritméticas. Por otro lado, cuando se opera en una configuración de pocas muestras, el modelo GPT-3 genera artículos de noticias sintéticos que se asemejan a la escritura humana cuando se pasan por evaluadores humanos.

Modelo GPT-3: Enfoque

El modelo GPT-3 utiliza un enfoque de preentrenamiento convencional que comprende modelo, datos y entrenamiento, y se asemeja al proceso de preentrenamiento seguido por el modelo de transferencia de lenguaje RWC-19. El modelo GPT-3 aumenta el tamaño del modelo, el tamaño del conjunto de datos, la diversidad del conjunto de datos y aumenta la duración del período de entrenamiento.

El modelo también utiliza un enfoque de aprendizaje en contexto que una vez más se asemeja al enfoque del modelo RWC-19, pero ajusta algunas cosas explorando sistemáticamente diferentes configuraciones para aprender patrones dentro del contexto del conjunto de datos.

Entonces, comencemos explorando estas configuraciones y evaluemos cómo se desempeña el modelo GTP-3 en diferentes configuraciones.

Ajuste fino

El ajuste fino del modelo ha sido el enfoque convencional en los modelos de transferencia de lenguaje, y este enfoque implica actualizar los pesos de un modelo preentrenado entrenando el modelo en un conjunto de datos supervisado específico para la tarea deseada y se utilizan cientos de miles de ejemplos etiquetados durante el proceso.

El enfoque de ajuste fino es beneficioso porque proporciona un rendimiento sólido en numerosos puntos de referencia. Por otro lado, la principal limitación de utilizar el enfoque de ajuste fino es que requiere un conjunto de datos nuevo y grande para cada tarea individual, tiene el potencial de explotar características espurias del conjunto de datos de entrenamiento, puede dar lugar a una comparación injusta con el rendimiento humano y una mala generalización para datos fuera de distribución.

El alcance actual del modelo GPT-3 no implementa el enfoque de ajuste fino debido a su rendimiento agnóstico de tareas, aunque en el futuro se podría aplicar el ajuste fino al modelo GPT-3.

Few Shot

Few Shot es un término que se refiere a la configuración en la que se le dan al modelo GPT-3 unas pocas demostraciones de la tarea durante la interferencia como condicionamiento, pero los pesos del modelo no se actualizan. En la configuración de few shot, el conjunto de datos típicamente tiene un ejemplo con un contexto y una finalización deseada (por ejemplo, una oración en francés y su traducción al inglés). La configuración de few shot le proporciona al modelo K ejemplos de contexto y finalización, y luego le proporciona al modelo un contexto final y espera que el modelo proporcione la finalización.

La principal ventaja de usar la configuración de few shot es que reduce significativamente la necesidad de datos específicos de la tarea y también reduce el potencial de aprender una distribución estrecha de un gran conjunto de datos que se ajusta estrechamente. Por otro lado, la principal desventaja de usar el aprendizaje de few shot es que los resultados obtenidos en la configuración de few shot no cumplen con los estándares y son significativamente pobres en comparación con otros modelos de vanguardia que se ajustan finamente.

One Shot

En la configuración de one shot, el modelo solo recibe una sola demostración y el resto es similar a la configuración de few shot. La razón por la cual la configuración de one shot es relevante en los modelos de transferencia de lenguaje es porque, de todas las configuraciones, one shot es la que se asemeja mejor a la forma en que los humanos se comunican las tareas. Esto se debe a que en la mayoría de las tareas, es común dar una sola demostración de la tarea, de lo contrario podría ser difícil entender el contexto de la tarea.

Zero Shot

En la configuración de zero shot, no hay demostraciones y se le proporciona al modelo una instrucción en lenguaje natural que describe la tarea. El método de zero shot es el que ofrece la máxima comodidad, es robusto y también evita correlaciones espurias, pero también es el más desafiante de las tres configuraciones. Esto se debe a que, en algunos casos, incluso a nosotros, los humanos, nos resulta difícil entender el contexto de una tarea sin ver primero una demostración.

De todos modos, para algunas tareas, la configuración de zero shot es la que se asemeja más a cómo los humanos realizan tareas en lenguaje natural.

La figura anterior compara la configuración de few shot, one shot y zero shot al realizar una tarea de lenguaje natural que consiste en tomar una oración en inglés y traducirla al francés.

GPT-3: Arquitectura del Modelo

El modelo GPT-3 utiliza la misma arquitectura que se utilizó en el modelo GPT-2 e incluye técnicas de pre-normalización, inicialización modificada y tokenización reversible, tal como se utilizó en el modelo GPT con la excepción de utilizar una estrategia alternativa para patrones de atención dispersos localmente y capas densas alternas en las capas del transformador, similar a Sparse Transformer.

Para estudiar la dependencia del rendimiento del modelo en el tamaño del modelo, los desarrolladores han entrenado 8 tamaños de modelo diferentes que abarcan tres órdenes de magnitud diferentes, desde 125 millones hasta más de 175 mil millones de parámetros, siendo el último de ellos el modelo GPT-3. Trabajos previos relacionados con modelos LLM han indicado que la escala de la pérdida de validación con una cantidad suficiente de datos de entrenamiento debería ser una ley de potencia aproximadamente suave como función del tamaño. Entrenar modelos de diferentes tamaños permite a los desarrolladores probar la hipótesis tanto para tareas de lenguaje posteriores como para la pérdida de validación.

La figura anterior compara el tamaño y la arquitectura de los 8 modelos diferentes utilizados para el desarrollo del GPT-3. Aquí, n(params) define el número total de patrones entrenables, n(layers) define el número total de capas en el modelo, d(model) define el número de unidades en cada capa del cuello de botella y d(head) define las dimensiones de cada atención individual. La ventana de contexto para cada modelo es la misma, con 2048 tokens.

Además, para minimizar la transferencia de datos entre los nodos, el modelo se divide en las GPUs a lo largo de la profundidad y el ancho de las dimensiones. Los parámetros arquitectónicos de cada modelo se han elegido en función de la eficiencia computacional y el equilibrio de carga para maximizar la precisión en la distribución de los modelos en las GPUs.

Conjunto de datos de entrenamiento

Típicamente, los grandes modelos de lenguaje utilizan conjuntos de datos que se han expandido significativamente con los desarrollos recientes, y culminan en el conjunto de datos de Common Crawl que consta de más de un billón de palabras diferentes. El tamaño del conjunto de datos es suficientemente adecuado para entrenar el modelo GPT-3 sin actualizar la misma secuencia varias veces. Sin embargo, estudios y análisis de rendimiento indican que las versiones ligeramente filtradas o sin filtrar del conjunto de datos de Common Crawl tienen baja calidad en comparación con un conjunto de datos más seleccionado.

Para abordar el problema de la calidad promedio del conjunto de datos, los desarrolladores tomaron 3 pasos para mejorar la calidad del conjunto de datos.

Los desarrolladores descargaron y filtraron una versión del conjunto de datos de Common Crawl basada en un rango similar a los corpus de referencia de alta calidad.
Los desarrolladores realizaron una duplicación difusa a nivel de documento en todo el conjunto de datos en un intento de preservar la integridad de su conjunto de validación oculto como una medida efectiva de sobreajuste, y también para evitar redundancias.
Los desarrolladores también agregaron corpus de referencia de alta calidad a los datos de entrenamiento para aumentar el conjunto de datos y aumentar aún más la diversidad del conjunto de datos.

La siguiente figura muestra la proporción o mezcla final de los conjuntos de datos utilizados para entrenar el modelo GPT-3. Los datos de Common Crawl consistían en más de 45 TB de texto sin formato antes del filtrado, que se redujo a 570 GB de datos después del filtrado, un equivalente aproximado a más de 400 mil millones de tokens codificados en pares de bytes. Vale la pena señalar que los conjuntos de datos de mayor calidad en el entrenamiento se muestrean con más frecuencia en lugar de muestrear el conjunto de datos en proporción a su tamaño. Como resultado, los conjuntos de datos como Books2 y Common Crawl se muestrean menos de una vez durante el entrenamiento, mientras que los otros conjuntos de datos se muestrean varias veces. Esto permite que el modelo acepte una pequeña cantidad de sobreajuste a cambio de entrenar con datos de mayor calidad.

Una preocupación significativa con los grandes modelos de lenguaje que se pre-entrenan con una gran cantidad de datos de Internet con la capacidad de memorizar y aprender una gran cantidad de contenido es la posible contaminación de tareas posteriores al tener sus conjuntos de desarrollo o prueba vistos durante el proceso de pre-entrenamiento. Para reducir dicha contaminación potencial, los desarrolladores buscaron cualquier superposición con los conjuntos de prueba y desarrollo de los benchmarks estudiados para GPT-3, e intentaron eliminar estas superposiciones.

La imagen anterior muestra el cómputo total utilizado durante el entrenamiento del modelo GPT-3. El modelo utiliza Leyes de Escalamiento para Modelos de Lenguaje Neurales para entrenar modelos mucho más grandes con menos tokens de lo habitual. Como resultado, tanto el modelo GPT-3 como el modelo RoBERTa-Large, que es 10 veces más pequeño que el modelo GPT-3, utilizaron casi 50 petaflops/día de cómputo durante el proceso de pre-entrenamiento.

Evaluación

Para el aprendizaje de pocos ejemplos, el modelo evalúa cada ejemplo presente en el conjunto de datos de evaluación dibujando aleatoriamente K ejemplos de ese conjunto de datos de entrenamiento de la tarea como condicionante, y lo delimita con 1 o 2 saltos de línea dependiendo de la tarea. Para Storycloze y LAMBADA, el modelo extrae ejemplos de condicionamiento del conjunto de desarrollo y lo evalúa en el conjunto de prueba debido a la falta de un conjunto de entrenamiento supervisado. Para Winograd, solo existe un conjunto de datos, por lo que los ejemplos de condicionamiento se extraen directamente de él.

K puede ser cualquier valor que varíe desde 0 hasta el máximo permitido por la ventana de contexto del modelo, que es next = 2048 para todos los modelos, y generalmente se ajusta a alrededor de 10 a 100 ejemplos. Valores más grandes de K a menudo resultan en mejores resultados, pero no siempre, por lo que cuando el modelo tiene un conjunto de prueba y un conjunto de desarrollo separado disponibles, el modelo experimenta con algunos valores de K en el conjunto de desarrollo y, en función de los resultados, ejecuta el mejor valor en el conjunto de prueba.

Además, en las tareas que requieren seleccionar una finalización correcta entre varias opciones, los desarrolladores proporcionan K ejemplos de corrección más la finalización del contexto, y lo siguen proporcionando un ejemplo solo del contexto, y luego las tareas se comparan en función de la probabilidad de ML de cada finalización. Para tareas que requieren clasificación binaria, los modelos a menudo ofrecen opciones más semánticas y con nombres más significativos, y luego tratan la tarea como una opción múltiple, y a veces también enmarcan la tarea de manera similar a lo que hace el modelo y arquitectura RSR.

Para las tareas que requieren completar en forma libre, el modelo utiliza la búsqueda por haz con parámetros idénticos a los utilizados en el marco RSR, con un haz de longitud 4 y una penalización de 0.6. Luego, el modelo se puntúa utilizando la puntuación de similitud F1, coincidencia exacta o BLEU, dependiendo del estándar para el conjunto de datos.

Resultados

La figura anterior muestra las curvas de entrenamiento para los 8 modelos utilizados en la arquitectura del modelo GPT-3, como se describe en las secciones anteriores. Al igual que los resultados del modelo de lenguaje KMH, el rendimiento del modelo GPT-3 sigue una ley adecuada cuando se utiliza de manera efectiva la computación de entrenamiento. Solo hay una ligera diferencia de la ley cuando la tendencia se extiende en dos órdenes de magnitud más. Es posible que a las personas les ocurra que las mejoras en la pérdida de entropía cruzada puedan ser el resultado de modelar detalles espurios del corpus de entrenamiento. Sin embargo, las mejoras en la pérdida de entropía cruzada conducen a ganancias consistentes en el rendimiento general en una amplia gama de tareas de procesamiento del lenguaje natural.

Antes de evaluar los 8 modelos diferentes en una amplia gama de datos de entrenamiento, los conjuntos de datos se agrupan en 8 categorías diferentes que representan tareas similares. Estas categorías son:

Evaluación en tareas de modelado de lenguaje tradicionales y tareas que se asemejan al modelado de lenguaje, como tareas de relleno de espacios en blanco o completar oraciones/párrafos.
Evaluación en tareas de pregunta-respuesta “libro cerrado”.
Evaluación de la capacidad del modelo para traducir entre idiomas (especialmente de un solo disparo y de pocos disparos).
Evaluación del rendimiento del modelo en tareas similares al esquema de Winograd.
Evaluación en conjuntos de datos que involucran razonamiento de sentido común o pregunta-respuesta.
Evaluación en tareas de comprensión de lectura.
Evaluación en el conjunto de referencia SuperGLUE.
Exploración de la inferencia de lenguaje natural (NLI).

Modelado de Lenguaje, Completado y Tareas de Relleno de Espacios en Blanco

En esta sección, se evalúa el rendimiento del modelo GPT-3 en tareas de modelado de lenguaje tradicionales, así como en tareas que requieren predecir una única palabra de interés, completar un párrafo o una oración, o completar una parte de un texto. Vamos a discutirlos brevemente.

Modelado de Lenguaje

El modelo GPT-3 calcula la perplejidad de cero disparo en el conjunto de datos PTB o Penn Tree Bank. El modelo omite las tareas relacionadas con Wikipedia porque ya están incluidas en los datos de entrenamiento del modelo, y también se omite el conjunto de datos de mil millones de palabras porque causa una cantidad significativa de fricción al estar dentro de los datos de entrenamiento. Sin embargo, el conjunto de datos PTB aborda estos problemas porque puede predata el internet moderno. El modelo más grande en la arquitectura del modelo GPT-3 establece un nuevo estado del arte en el conjunto de datos PTB con una notable diferencia de 15 puntos, y logra una perplejidad de 20.50.

LAMBADA

El conjunto de datos LAMBADA se utiliza para probar el modelado del modelo en dependencias a largo plazo en párrafos o textos. Esto significa que se le pide al modelo que prediga la última palabra de una oración después de leer el párrafo como contexto. Además, el escalado continuo de los modelos de lenguaje produce rendimientos decrecientes en el conjunto de referencia.

El modelo GPT-3 logra una precisión del 76% en LAMBADA y tiene una mejora de más del 8% en comparación con los mejores modelos anteriores. Además, el modelo LAMBADA demuestra la flexibilidad del aprendizaje de pocos disparos al abordar el problema de una manera que ocurre clásicamente con el conjunto de datos. La completación de una oración en LAMBADA suele ser la última palabra de la oración, pero como un modelo de lenguaje no puede saber eso, asigna una probabilidad no solo al final correcto, sino también a otras continuaciones en el párrafo.

Además, cuando los ejemplos proporcionados al modelo GPT-3 se modifican de cierta manera, el modelo devuelve una precisión superior al 86%, un aumento de más del 18% en comparación con los modelos anteriores. Además, los resultados también indicaron que el rendimiento del modelo en un entorno de pocos disparos aumenta proporcionalmente con el aumento del tamaño del modelo. Aunque esta estrategia reduce el tamaño del modelo más pequeño en la arquitectura del GPT-3 en un 20%, mejora la precisión del modelo GPT-3 principal con 175 mil millones de parámetros en un 10%.

Respuesta a preguntas en un libro cerrado

La respuesta a preguntas en un libro cerrado es un intento de medir la capacidad del modelo GPT-3 para responder preguntas basadas en conocimientos generales. Debido a que este tipo de preguntas a menudo tienen una alta cantidad de posibles consultas, la tarea se logra normalmente utilizando un sistema de recuperación de información que permite al modelo encontrar texto relevante en combinación con el modelo que aprende a generar una respuesta dada la información recuperada y la pregunta.

La imagen anterior compara los resultados del modelo GPT-3 con diferentes modelos y ejecutándose en diferentes conjuntos de datos. En el conjunto de datos TriviaQA, el modelo alcanza una puntuación de precisión del 64,3% en la configuración sin entrenamiento previo, mientras que alcanza una puntuación de precisión del 68% y del 71,2% en las configuraciones de entrenamiento previo con una muestra y con varias muestras, respectivamente.

Evidentemente, se puede observar que el modelo GPT-3 en la configuración sin entrenamiento previo supera al modelo T5-11B ajustado finamente en más del 14%.

La figura anterior muestra que el rendimiento del modelo GPT-3 aumenta de forma suave al aumentar el tamaño del modelo. El rendimiento sugiere que los modelos de lenguaje continúan aprendiendo a partir del conjunto de datos a medida que aumenta su capacidad.

Pensamientos finales

Se puede afirmar con seguridad que GPT-3 fue una fase revolucionaria en la industria de los modelos de lenguaje grandes, ya que GPT-3 ayudó a empujar los límites de lo que un modelo de lenguaje podría hacer. Fueron los avances logrados y los obstáculos superados por GPT-3 los que allanaron el camino para el modelo de lenguaje grande más avanzado y preciso hasta la fecha, el GPT-4.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Gpt 3LlmOpenAI

Was this article helpful?

93 out of 132 found this helpful

GPT-3 ¿Aprendizaje de pocos ejemplos para modelos de lenguaje?

Problemas con los Modelos de Lenguaje de Transferencia o Modelos Recurrentes Pre-entrenados Existente

Afrontar los problemas con el Metaaprendizaje y GPT-3

Una introducción al modelo GPT-3

Modelo GPT-3: Enfoque

Ajuste fino

Few Shot

One Shot

Zero Shot

GPT-3: Arquitectura del Modelo

Conjunto de datos de entrenamiento

Evaluación

Resultados

Modelado de Lenguaje, Completado y Tareas de Relleno de Espacios en Blanco

Modelado de Lenguaje

LAMBADA

Respuesta a preguntas en un libro cerrado

Pensamientos finales

Was this article helpful?

Ciencia de Datos Orientada a Objetos Refactorización de Código

IA generativa para conocimientos biomédicos

Inteligencia Artificial

Ve este nuevo sistema de IA llamado Estudiante de Juegos (SoG) que es capaz de vencer a los humanos en una variedad de juegos y aprender a jugar nuevos'.

Tienes que ajustar esas dimensiones DreamEditor es un modelo de IA que edita escenas en 3D utilizando indicaciones de texto.

Una nueva investigación de inteligencia artificial propone un razonamiento multimodal de cadena de pensamiento en modelos de lenguaje que supera a GPT-3.5 en un 16% (75,17% → 91,68%) en ScienceQA.

NVIDIA impulsa el entrenamiento para algunos de los modelos más grandes de la Fundación Amazon Titan.

La FTC investiga si ChatGPT perjudica a los consumidores

Un nuevo enfoque de investigación de Inteligencia Artificial (IA) presenta el Aprendizaje Basado en Instrucciones en Contexto como un problema de aprendizaje de algoritmos desde una perspectiva estadística.