¿Qué son los Modelos de Lenguaje Grandes (LLMs)? Aplicaciones y Tipos de LLMs

Modelos de Lenguaje Grandes (LLMs) - ¿Qué son y cuáles son sus aplicaciones y tipos?

Los programas informáticos llamados modelos de lenguaje grandes proporcionan opciones novedosas para analizar y crear texto. No es raro que los modelos de lenguaje grandes se entrenen utilizando petabytes o más de datos de texto, lo que los hace tener un tamaño de varios terabytes. Los parámetros de un modelo son los componentes aprendidos a partir de datos de entrenamiento anteriores y, en esencia, establecen la competencia del modelo en una tarea, como la generación de texto. Las actividades de procesamiento del lenguaje natural (NLP), que incluyen la conversión de voz a texto, el análisis de sentimientos, la resumen de texto, la corrección ortográfica, la categorización de tokens, etc., se basan en los modelos de lenguaje como base. Los modelos de lenguaje pueden analizar un texto y predecir la probabilidad del siguiente token en la mayoría de los trabajos de procesamiento del lenguaje natural. Los unigramas, los n-gramas, las redes exponenciales y las redes neuronales son formas válidas para el modelo de lenguaje.

Aplicaciones de los LLMs

El siguiente gráfico resume el estado actual del panorama de los Modelos de Lenguaje Grande (LLM) en términos de características, productos y software de apoyo.

Fuente de la imagen: https://cobusgreyling.medium.com/the-large-language-model-landscape-9da7ee17710b
  • Generación de comandos de shell

Warp, una terminal de próxima generación, utiliza GPT-3 para transformar el lenguaje natural en instrucciones ejecutables de shell “como GitHub Copilot, pero para la terminal”.

Incluso para programadores experimentados, puede ser necesario explicar la sintaxis de los comandos de shell.

  • Generación de expresiones regulares

La generación de expresiones regulares lleva mucho tiempo para los desarrolladores; sin embargo, Autoregex.xyz utiliza GPT-3 para automatizar el proceso.

  • Redacción

El modelo más popular para esta tarea es GPT-3; sin embargo, existen alternativas de código abierto como BLOOM (de BigScience) y GPT-J de Eleuther AI. Copy ai, Copysmith, Contenda, Cohere y Jasper ai son algunas de las startups que desarrollan aplicaciones en este campo; sus herramientas facilitan la escritura rápida de publicaciones de blog, contenido de ventas, anuncios digitales y copias de sitios web.

  • Clasificación

Clasificar texto en categorías predefinidas es un ejemplo de aprendizaje supervisado. El texto con significados similares puede agruparse sin el uso de clases predefinidas mediante el uso de la técnica de agrupamiento, un enfoque de aprendizaje no supervisado.

  • Generación de respuestas

La generación de respuestas es la idea de producir un flujo de diálogo utilizando conversaciones de muestra y un enfoque de aprendizaje automático. En la medida en que el próximo diálogo presentado al usuario esté determinado por un modelo, teniendo en cuenta las respuestas pasadas del usuario y la conversación futura más probable, esto se denomina diálogo predictivo.

  • Generación de texto

La capacidad de los LLM para generar textos a partir de una breve descripción, con o sin datos de ejemplo, podría considerarse su “meta capacidad”.

Casi todos los LLM cumplen la función de generación. Los datos de aprendizaje con pocos ejemplos no solo mejoran significativamente la generación, sino que también influyen en cómo se utiliza esa información.

  • Respuesta a preguntas basadas en conocimientos

La respuesta a preguntas basadas en conocimientos es una aplicación del procesamiento del lenguaje natural basado en conocimientos intensivos (KI-NLP), que permite responder a consultas genéricas y transversales sin necesidad de consultar una interfaz de programación de aplicaciones (API) ni depender de un almacén de conocimientos convencional.

El procesamiento del lenguaje natural basado en conocimientos intensivos no es una búsqueda en la web, sino una búsqueda semántica respaldada por una base de conocimientos.

  • Generación de frontend/sitios web

Pygma se utiliza para convertir bocetos de Figma en código listo para producción. El objetivo final de la iniciativa CodeGen de Salesforce es facilitar el diseño y la generación de sitios web conversacionales.

  • Generación de SQL

Cogram es un traductor de lenguaje de consulta de bases de datos que elimina la necesidad de que los usuarios sean expertos en SQL para acceder a los datos y obtener información comercial.

  • Revisiones automáticas de código y mejora de la calidad del código

Codiga proporciona revisiones automáticas de código y Mutable AI ha industrializado los cuadernos Jupyter.

  • Optimización de consultas a bases de datos y asistencia/automatización de DevOps

Los errores de base de datos, como los fallos de caché y la falta de índices, pueden dar lugar a diversas dificultades, que Ottertune puede ayudar a diagnosticar y corregir.

  • Generación de código y autocompletado

Codex (que alimenta a Copilot) es el enfoque más general; sin embargo, hay una alternativa de código abierto en CodeGen de Salesforce. El panorama de las startups de desarrollo de software incluye empresas como Tabnine, Codiga y Mutable AI.

  • Recomendaciones personalizadas

En cuanto a la plataforma de comercio electrónico de Naver, HyperCLOVA hace más que simplemente potenciar la búsqueda. También permite funciones como “resumir múltiples opiniones de consumidores en una línea”, “recomendar y curar productos según las preferencias de compra del usuario” y “generar frases de marketing para colecciones destacadas de compras”.

Shaped AI también proporciona algoritmos de clasificación para feeds, recomendaciones y sitios de descubrimiento.

  • Generación de documentación de requisitos del producto (PRD)

Monterey está trabajando en un “copiloto para el desarrollo de productos” que podría incluir LLMs.

  • Información sobre productos

Estas cuatro herramientas: Viable, Interpret, Cohere y Anecdote, ayudan a convertir la entrada de los usuarios en información útil para mejorar el producto.

  • Búsqueda empresarial

A través de GPT-3, Glean, Hebbia y Algolia, se puede buscar datos de texto o aplicaciones SaaS para ayudar a los usuarios (internos o externos) a encontrar lo que están buscando. Las notas internas de tu lugar de trabajo también se organizan automáticamente mediante Mem.

  • Traducción

Meta ha realizado estudios para mejorar la calidad de la traducción para 204 idiomas distintos, el doble del número de idiomas que se han traducido hasta ahora.

  • Tutoría personalizada

Korbit complementa los cursos masivos abiertos en línea, mientras que Replit ayuda a comprender el código informático.

  • Asistencia de chatbot/soporte técnico

Herramientas como LaMDA, Rasa, Cohere, Forethought y Cresta se pueden utilizar para alimentar chatbots o mejorar la productividad del personal de atención al cliente.

  • Asistente de herramientas de software generales

El objetivo a largo plazo de Adept AI es convertirse en un copiloto/asistente universal, capaz de recomendar pasos de flujo de trabajo para cualquier programa.

  • Corrección gramatical y de estilo

Se pueden encontrar ayudantes de escritura inteligentes en sitios como Duolingo, Writer.com y Grammarly.

  • Toma de decisiones personal

Con la ayuda de Oogway, las personas pueden organizar mejor sus opciones y tomar decisiones informadas.

Tipos de LLM

Modelos de lenguaje grandes

No es raro que los modelos de lenguaje grandes se entrenen utilizando petabytes o más de datos de texto, lo que los hace de decenas de terabytes de tamaño. Es uno de los modelos más grandes en términos del número de valores independientes que el modelo puede ajustar a medida que aprende. Los parámetros de un modelo son los componentes aprendidos a partir de datos de entrenamiento previos y, en esencia, establecen la competencia del modelo en una tarea, como la generación de texto. Los últimos años han mostrado un crecimiento dramático en la popularidad de los grandes modelos de lenguaje debido a la investigación en estructuras cada vez más complejas.

Varias nuevas empresas, como Cohere y AI21 Labs, proporcionan APIs para acceder a modelos similares a GPT-3. En cambio, otras empresas, incluidos gigantes de Internet como Google, han optado por mantener sus modelos de lenguaje elaborados en secreto.

 Modelos de lenguaje afinados

En comparación con sus competidores más voluminosos de modelos de lenguaje, los modelos afinados tienden a ser más compactos. El afinamiento puede mejorar el rendimiento de un modelo, ya sea en la respuesta a preguntas o en la generación de secuencias de proteínas. Sin embargo, puede mejorar el conocimiento de un modelo en un campo específico, como la ciencia médica.

Debido a sus orígenes en modelos de lenguaje preexistentes, los modelos afinados requieren mucho menos tiempo y potencia informática para entrenar y ejecutar. Muchos campos han utilizado el afinamiento, pero InstructGPT de OpenAI es un ejemplo especialmente impresionante y actualizado.

Modelos de lenguaje en el borde

Las variantes de borde, diseñadas para ser compactas, pueden adoptar la forma de versiones refinadas de los originales. A menudo se entrenan desde el principio con muy pocos datos para cumplir con ciertas restricciones de hardware. Se evita el costo de usar la nube cuando un modelo puede ejecutarse localmente en el dispositivo de borde. Los costos populares de modelos basados en la nube pueden sumar miles de dólares para tareas como analizar millones de tweets. Dado que los modelos de borde no envían datos a la nube para su procesamiento, deberían ser más privados que sus equivalentes dependientes de Internet.

Principales modelos de lenguaje grandes de código abierto 

  • GPT-Neo, GPT-J y GPT-NeoX

Los modelos de inteligencia artificial extremadamente potentes, como GPT-Neo, GPT-J y GPT-NeoX, se pueden utilizar para problemas de aprendizaje de pocos ejemplos. El aprendizaje de pocos ejemplos es similar a entrenar y afinar cualquier modelo de aprendizaje profundo, pero requiere menos muestras. En comparación con otros modelos GPT de código abierto disponibles públicamente, GPT-NeoX, construido principalmente sobre Megatron-LM y DeepSeed, es un avance significativo. Se construyó utilizando Mesh TensorFlow y se optimizó para GPUs debido a su complejidad y tamaño. Hasta ahora, el modelo autoregresivo denso más grande de acceso público era el modelo GPT-NeoX-20B, que tiene 20 mil millones de parámetros y se entrenó en la Pile. Las capacidades de aprendizaje de pocos ejemplos de GPT-NeoX-20B permiten la creación de pruebas de concepto que se pueden utilizar para evaluar la viabilidad del proyecto.

  • XLNet

La comprensión de lectura, la categorización de texto, el análisis de sentimientos y otras tareas de procesamiento del lenguaje natural (NLP) son solo algunas de las muchas para las que los investigadores de la Universidad Carnegie Mellon y Google han construido un nuevo modelo llamado XLNet. Mediante la optimización de la probabilidad sobre todas las posibles órdenes de factorización, su formulación autoregresiva supera las restricciones de BERT, lo que permite adquirir conocimiento en ambas direcciones. Se preentrena utilizando un modelo autoregresivo generalizado. Además, XLNet incorpora el modelo autoregresivo de última generación, Transformer-XL, en el proceso de preentrenamiento. XLNet obtiene un rendimiento de última generación en 18 tareas, incluyendo respuesta a preguntas, inferencia de lenguaje natural, análisis de sentimientos y calificación de documentos, y supera a BERT en 20 tareas.

  • Roberta

El proceso de entrenamiento de la Representación de Codificador Bidireccional de Google (BERT) fue estudiado por investigadores de Facebook AI y la Universidad de Washington. Se han realizado muchos ajustes al régimen de entrenamiento y los resultados han mejorado. Los investigadores también entrenaron el modelo con muchas más iteraciones que BERT, emplearon un conjunto de datos más grande, eligieron mini lotes más grandes, abandonaron la Predicción de Siguiente Oración (NSP), entre otras cosas. El resultado es RoBERTa (Enfoque BERT Optimizado Robustamente), que logra un rendimiento similar al de XLNet en la prueba GLUE (Evaluación General de Comprensión del Lenguaje).

  • DeBERTa

Microsoft Research propuso un modelo BERT mejorado con atención desentrelazada para mejorar los modelos BERT y RoBERTa. El mecanismo de atención se desacopló primero; las palabras se representan mediante un par de vectores que transmiten su contenido y ubicación. Los pesos de atención entre los términos se calculan mediante una matriz que considera ambos factores de forma independiente. En segundo lugar, se emplea un decodificador de máscara mejorado para predecir los tokens enmascarados durante el preentrenamiento del modelo en lugar de la salida de una capa softmax. En el momento de la publicación, el modelo DeBERTa logró una puntuación de referencia GLUE superior a la de los seres humanos. Los modelos DeBERTa todavía se utilizan ampliamente para muchas aplicaciones de procesamiento del lenguaje natural, incluyendo respuesta a preguntas, resumen, tokenización y categorización de texto.

  • XLM-RoBERTa

XLM-RoBERTa es un modelo de lenguaje que utiliza transformadores para traducir texto hacia y desde cien idiomas distintos. En el pasado, esto tendría que hacerse repetidamente para cada nuevo idioma, con sus propias particularidades. Los modelos multilingües, como XLM-RoBERTa, permiten a las organizaciones generar valor para los consumidores que necesitan ayuda para entender el inglés mucho más rápido. Sin embargo, a veces ofrecen el mejor rendimiento por trabajo.

  • DistilBERT

DistilBERT sigue un enfoque diferente a los modelos anteriores que intentan maximizar la eficiencia de BERT. DistilBERT tiene como objetivo aumentar la velocidad de inferencia mientras que otros métodos similares, como XLNet, RoBERTa y DeBERT, mejoran el rendimiento. Su objetivo es hacer que BERT BASE y BERT LARGE, que tienen 110M y 340M parámetros, respectivamente, sean más rápidos y más pequeños.

En resumen

No se puede subestimar la importancia del lenguaje. Es la forma en que absorbemos información sobre el mundo y contribuimos a él (por ejemplo, acuerdos, leyes o mensajes). La conexión y la comunicación también se facilitan a través del lenguaje. Aunque el software ha avanzado rápidamente, las capacidades lingüísticas de las computadoras aún están restringidas. El software destaca en encontrar coincidencias palabra por palabra en el texto, pero tiene dificultades con técnicas lingüísticas más sutiles que las personas utilizan a diario. Indudablemente, existe la necesidad de instrumentos más sofisticados con una comprensión lingüística mejorada.

El desarrollo de tecnologías de procesamiento del lenguaje ha sido un gran avance en la inteligencia artificial (IA), lo que nos permite crear sistemas más inteligentes que nunca y con una comprensión más profunda del lenguaje humano. Aunque los modelos de lenguaje enormes, afinados y de vanguardia están mejorando constantemente gracias a la investigación en curso, aún enfrentan desafíos en su camino hacia un uso generalizado. A pesar de su utilidad, entrenar e implementar estos modelos de manera eficiente requiere datos, potencia informática y experiencia técnica.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Clave maestra para la separación de fuentes de audio Presentamos AudioSep para separar cualquier cosa que describas

La Análisis de Escena Auditiva Computacional (CASA, por sus siglas en inglés) es un campo dentro del procesamiento de...

Inteligencia Artificial

HashGNN Profundizando en el nuevo algoritmo de incrustación de nodos de Neo4j GDS

HashGG (#GNN) es una técnica de incrustación de nodos que utiliza conceptos de Redes Neuronales de Paso de Mensajes (...

Inteligencia Artificial

Ramas son todo lo que necesitas nuestro marco de versionado de ML con opinión

Un enfoque simple para la versión de proyectos de ML utilizando ramas de Git que simplifica los flujos de trabajo, or...

Inteligencia Artificial

Dentro del acalorado centro del pesimismo de la IA

Anthropic, una start-up de inteligencia artificial centrada en la seguridad, está tratando de competir con ChatGPT mi...

Inteligencia Artificial

Los mejores mejoradores de audio de IA (2023)

Los profesionales y audiófilos pueden beneficiarse de la mejor calidad de sonido posible gracias al software de mejor...