8 Modelos de Lenguaje Grandes y Nuevos que Debes Tener en Cuenta

8 Grandes y Nuevos Modelos de Lenguaje a Considerar

Últimamente hemos escuchado mucho sobre los grandes modelos de lenguaje, o LLMs, en las noticias. Si no lo sabes, los LLMs son un tipo de inteligencia artificial que se entrena con cantidades masivas de datos de texto. Esto les permite generar texto que a menudo es indistinguible del texto escrito por humanos, como ChatGPT. Debido a esto, los LLMs tienen una amplia gama de aplicaciones potenciales, incluyendo en los campos del procesamiento del lenguaje natural, la traducción automática y la generación de texto.

Dicho esto, aquí hay algunos de los LLMs más nuevos y populares que vale la pena tener en cuenta:

RWKV

Con la esperanza de combinar las fortalezas de los transformadores de alta potencia con la eficiencia de las RNNs, RWKV espera combinar las mejores características de ambos. Se espera que RWKV pueda lograr un rendimiento de última generación con menores costos computacionales. Si tiene éxito, esto podría llevar a modelos de PLN más eficientes en el futuro.

Palm 2

PaLM 2 es un nuevo modelo de lenguaje que es más multilingüe, más eficiente y tiene mejores capacidades de razonamiento que su predecesor, PaLM. Es un modelo basado en transformadores entrenado utilizando una mezcla de objetivos similar a UL2. PaLM 2 ha demostrado tener una calidad significativamente mejorada en tareas posteriores en diferentes tamaños de modelo, al mismo tiempo que muestra inferencia más rápida y eficiente en comparación con PaLM. PaLM 2 también demuestra capacidades de razonamiento robustas y un rendimiento estable en una variedad de evaluaciones de IA responsable.

Pythia

Pythia es un conjunto de 16 LLMs entrenados con los mismos datos públicos que se pueden utilizar para estudiar el desarrollo y la evolución de los LLMs. También se ha utilizado para estudiar la memorización, los efectos de la frecuencia de términos en algunas actuaciones cortas y la reducción del sesgo de género. Los modelos varían en tamaño desde 70M hasta 12B parámetros. Pythia está disponible públicamente e incluye herramientas para descargar y reconstruir los cargadores de datos de entrenamiento.

GPT-4

GPT-4 es un modelo multimodal a gran escala que puede aceptar imágenes y texto como entradas y producir salidas de texto. Exhibe un rendimiento a nivel humano en varias pruebas profesionales y académicas, incluyendo aprobar un examen de barra simulado. Es un modelo basado en transformadores que está pre-entrenado para predecir el siguiente token en un documento. El proceso de alineación posterior al entrenamiento resulta en un mejor rendimiento en medidas de veracidad y adherencia a un comportamiento deseado. GPT-4 es uno de los LLMs más conocidos en esta lista y ya ha demostrado realizar hazañas increíbles gracias a los ingenieros de sugerencias creativas.

Kosmos

Kosmos-1 es un modelo de lenguaje multimodal a gran escala que puede percibir modalidades generales, aprender en contexto y seguir instrucciones. Fue entrenado en corpus multimodales a gran escala, que incluyen texto e imágenes. Kosmos-1 logra un rendimiento impresionante en una amplia gama de tareas, incluyendo comprensión del lenguaje, generación y tareas de percepción del lenguaje. También puede beneficiarse de la transferencia entre modalidades, lo que le permite transferir conocimiento del lenguaje a multimodal y viceversa.

LLaMA

LLaMA de Meta, que significa Modelo de Lenguaje Grande desde cero con Texto Anotado Masivo, varía en tamaño desde 7B hasta 65B parámetros. LLaMA fue entrenado en conjuntos de datos disponibles públicamente. LLaMA demuestra que es posible entrenar modelos de lenguaje de última generación utilizando solo datos disponibles públicamente y que LLaMA-13B supera a GPT-3 (175B) en la mayoría de las pruebas. LLaMA-65B es competitivo con los mejores modelos, Chinchilla70B y PaLM-540B. Actualmente, esos modelos solo se han lanzado a la comunidad de investigación caso por caso.

Vicuna

Vicuna-13B es un chatbot de código abierto que se entrena mediante la puesta a punto de LLaMA en conversaciones compartidas por los usuarios, que se recopilaron de ShareGPT. Inspirado en el proyecto Meta LLaMA y Stanford Alpaca, Vicuna-13B cuenta con un conjunto de datos mejorado y una infraestructura escalable y fácil de usar. El objetivo de este LLM es eliminar las barreras que dificultan el alcance y la innovación de código abierto en el campo.

Dolly

Dolly 2.0 es un modelo de lenguaje de 12B parámetros que es de código abierto y es uno de los pocos LLMs en esta lista que se puede utilizar con fines comerciales. Dolly 2.0 se entrenó en un conjunto de datos de 15,000 pares de instrucciones generadas por humanos. El conjunto de datos fue creado por empleados de Databricks y contiene una variedad de tareas, como preguntas y respuestas abiertas, preguntas y respuestas cerradas, extracción de información de Wikipedia, resumen de información de Wikipedia, lluvia de ideas, clasificación y escritura creativa.

Conclusión

Bastante impresionante, ¿verdad? Bueno, hay mucho más por aprender sobre los modelos de lenguaje grandes, pero no tienes que preocuparte por buscar en la web. ODSC tiene todo cubierto con la Cumbre de IA Generativa, una conferencia virtual gratuita que se llevará a cabo el 20 de julio, donde se reunirán las mentes más destacadas que impulsan la IA generativa. Obtén tu pase hoy mismo y descubre por ti mismo las últimas novedades en LLMs, IA generativa y su impacto en diferentes industrias.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

8 Modelos de Lenguaje Grandes y Nuevos que Debes Tener en Cuenta

Was this article helpful?

5 Consideraciones Éticas para la IA Generativa

Nuevo plan de política de IA presentado por el CEO de los Grammy

Inteligencia Artificial

¿Qué es Machine Learning como Servicio? Beneficios y principales plataformas de MLaaS.

Investigadores de ByteDance y UCSD proponen un modelo de difusión multi-vista que es capaz de generar un conjunto de imágenes multi-vista de un objeto/escena a partir de cualquier texto dado.

Este documento de IA presenta BioCLIP aprovechando el conjunto de datos TreeOfLife-10M para transformar la visión por computadora en biología y conservación

Conoce Quivr Un proyecto de código abierto diseñado para almacenar y recuperar información desestructurada como un segundo cerebro

Microsoft Research presenta phi-1 un nuevo modelo de lenguaje grande especializado en la codificación de Python con un tamaño significativamente más pequeño que los modelos competidores.

Dentro de XGen-Imagen-1 Cómo Salesforce Research construyó, entrenó y evaluó un modelo masivo de texto a imagen.