Este boletín de inteligencia artificial es todo lo que necesitas #62

Boletín IA necesario #62

Lo que sucedió esta semana en IA por Louie

Esta semana hemos estado siguiendo el desarrollo de modelos de codificación en META, así como las nuevas capacidades de ajuste fino en OpenAI. Meta ha introducido Code LLaMA, un gran modelo de lenguaje con la capacidad de generar código basado en instrucciones y describir códigos. Han presentado tres iteraciones con diferentes recuentos de parámetros (7B, 13B y 34B), cada una de las cuales ha sido entrenada con 500 mil millones de tokens adicionales relacionados con el código. Los modelos son compatibles con lenguajes de programación ampliamente reconocidos como Python, C++, Java, PHP y otros. Además, se han construido dos modelos especializados sobre este modelo base. Code LLaMA – Instruct es la iteración ajustada de Code LLaMA, diseñada para seguir instrucciones. Además, está Code LLaMA – Python, un modelo dedicado diseñado específicamente para el lenguaje de programación Python. Los modelos están disponibles bajo licencias tanto para investigación como para uso comercial. La versión de código abierto de este modelo permite una rápida iteración y ya hemos visto otros modelos construidos sobre él, incluido WizardCoder, que ha demostrado un rendimiento superior en comparación con la mayoría de los modelos de lenguaje existentes, acercándose pero sin llegar al nivel de GPT-4.

En otras noticias importantes, OpenAI ha introducido la capacidad de ajustar fino el modelo GPT-3.5-turbo como un servicio. Es importante destacar que utilizar el modelo ajustado fino para inferencias conlleva un aumento significativo en el costo. OpenAI también ha presentado ChatGPT Enterprise, que ofrece un uso sin restricciones, mayor velocidad y una ventana de contexto extendida para organizaciones.

Estamos contentos de ver el lanzamiento de Code LLaMA y creemos que hay un gran potencial para modelos ajustados fino y optimizados para la codificación, lo que puede generar mejoras significativas, tanto como herramientas de copiloto para desarrolladores, como para abrir el desarrollo de software a personas que no son desarrolladoras. El lanzamiento del ajuste fino de GPT Turbo también es emocionante, y esperamos que conduzca a la creación de modelos de codificación ajustados fino de alta calidad, pero estamos particularmente entusiasmados con la posibilidad de ajustar fino para GPT-4 que se abrirá más adelante este año. Creemos que un GPT-4 ajustado fino para la codificación tiene un potencial increíble.

– Louie Peters – Cofundador y CEO de Towards AI

Noticias más destacadas

Se lanzó el ajuste fino de GPT-3.5 Turbo

OpenAI ha introducido el ajuste fino para GPT-3.5 Turbo, que ofrece un rendimiento mejorado en tareas específicas. Esta versión refinada puede igualar o incluso superar las capacidades del modelo base GPT-4. Los probadores iniciales han logrado reducir sustancialmente la longitud de las instrucciones mediante el proceso de ajuste fino. Los costos de entrenamiento y uso de entrada/salida se proporcionan a $0.008, $0.012 y $0.016 por cada 1,000 tokens, respectivamente.

2. Introducción de Code Llama, un modelo de lenguaje grande de última generación para la codificación

Meta ha lanzado Code Llama, un avanzado LLM para la codificación que puede generar código y lenguaje natural relacionado con el código. Está disponible en tres modelos y diferentes tamaños para satisfacer diferentes necesidades. Admite muchos de los lenguajes más populares utilizados en la actualidad, incluyendo Python, C++, Java, PHP, TypeScript (JavaScript), C# y Bash.

3. Introducción de un modelo multimodal fundamental para la traducción de voz

Meta ha desarrollado un sólido modelo fundamental conocido como SeamlessM4T, capaz de gestionar diversas tareas de texto y voz en 100 idiomas. Incluye reconocimiento automático de voz, traducción de voz a texto, traducción de voz a voz, traducción de texto a texto y traducción de texto a voz, admitiendo una amplia gama de idiomas de entrada y salida.

4. Introducción de ChatGPT Enterprise

OpenAI ha lanzado ChatGPT Enterprise, que ofrece características de seguridad y privacidad adecuadas para el uso empresarial. Esta versión ofrece acceso ilimitado a GPT-4 a velocidades más altas, ventanas de contexto extendidas (32k) para manejar entradas más largas, capacidades avanzadas de análisis de datos, opciones de personalización y características adicionales.

5. Alibaba lanza un nuevo chatbot que puede “leer” imágenes

Alibaba Cloud ha presentado dos modelos de IA de código abierto: Qwen-VL y Qwen-VL-Chat. Estos modelos están entrenados utilizando el LLM Tongyi Qianwen (Qwen) de la empresa. Pueden interpretar datos visuales, como texto en imágenes, y responder a consultas basadas en la ubicación, como ofrecer indicaciones interpretando imágenes de señales.

Cinco lecturas/videos de 5 minutos para seguir aprendiendo

Haciendo LLMs más ligeros con AutoGPTQ y Transformers

Hugging Face ha introducido la integración de AutoGPTQ en Transformers, facilitando la cuantización de 2, 3, 4 y 8 bits con una reducción de precisión insignificante. Esta integración es compatible tanto con las GPUs de Nvidia como con las GPUs de AMD con RoCm.

2. Enseñando a los modelos de lenguaje a razonar algorítmicamente

Este paper explora la efectividad de enseñar razonamiento algorítmico a los LLMs, centrándose en superar desafíos como el sobreajuste y las correlaciones espurias. Propone un enfoque de cuatro pasos que incluye formular algoritmos como habilidades, enseñar múltiples habilidades simultáneamente, enseñar la composición de habilidades y enseñar el uso de habilidades como herramientas.

3. Code Llama en Hugging Face

Code Llama ahora es accesible a través de Hugging Face, ofreciendo la capacidad de ejecutar rellenado de código utilizando los modelos 7B y 13B. Se ha puesto a disposición bajo la misma licencia comunitaria permisiva que Llama 2 y está abierto para su uso comercial.

4. Lenguaje a recompensas para la síntesis de habilidades robóticas

Los sistemas de lenguaje a recompensas, impulsados por LLMs, permiten a los robots aprender directamente del lenguaje. Estos sistemas traducen instrucciones en lenguaje natural en códigos que especifican recompensas, calculan recompensas basadas en las acciones del robot y facilitan el aprendizaje a través del aprendizaje por refuerzo (RL).

5. ¿Qué es MetaGPT? Agentes LLM colaborando para resolver tareas complejas

MetaGPT representa un enfoque novedoso para mejorar las colaboraciones entre agentes de IA. Este video revela el funcionamiento interno del diseño innovador de MetaGPT, profundiza en el papel de los SOPs (Procedimientos Operativos Estándar) y explora cómo varios agentes de IA colaboran de manera fluida.

Artículos y Repositorios

Reinforced Self-Training (ReST) para Modelado de Lenguaje

Este paper presenta un algoritmo sencillo para alinear LLMs con las preferencias humanas, inspirado en el aprendizaje por refuerzo en lotes crecientes. Reinforced Self-Training (ReST), desarrollado por DeepMind, ofrece una alternativa más económica a RLHF. Emplea un proceso de dos pasos, Crecer y Mejorar, para mejorar el conjunto de datos de entrenamiento y ajustar finamente el LLM.

2. Giraffe – LLMs de contexto largo

Giraffe es una nueva serie de modelos derivados de LLaMA y LLaMA2, que incluyen variantes con tamaños de ventana de contexto de 4k, 16k y 32k tokens. Estos modelos han sido ajustados finamente en base a LLaMA y LLaMA2, y presentan experimentos que involucran la expansión de la ventana de contexto a través de modificaciones de codificación posicional.

3. El nuevo LLM Platypus encabeza la clasificación de LLMs de Hugging Face

Platypus, el último LLM destacado en el Open LLM Leaderboard de HuggingFace, utiliza el conjunto de datos Open-Platypus para lograr un rendimiento impresionante en STEM y lógica. Aborda eficazmente el sesgo durante el entrenamiento utilizando módulos LoRA y la biblioteca PEFT. Sin embargo, su desafío con los idiomas más allá del inglés se atribuye a su modelo subyacente, LLaMa-2.

4. Graph of Thoughts: Resolver problemas elaborados con grandes modelos de lenguaje

Graph of Thoughts (GoT) representa un marco que mejora las capacidades de promoción de los grandes modelos de lenguaje (LLMs) más allá de lo que los paradigmas como Cadena de Pensamiento o Árbol de Pensamiento (ToT) proporcionan. GoT ha demostrado un rendimiento mejorado en comparación con métodos alternativos, mejorando notablemente la calidad de clasificación (62%) al tiempo que reduce los costos (31%).

5. QuIP: Cuantización de 2 bits de grandes modelos de lenguaje con garantías

Este paper introduce la cuantización con procesamiento incoherente (QuIP), un nuevo enfoque que logra la cuantización de 2 bits de modelos de lenguaje utilizando redondeo adaptativo. Es el primer algoritmo de su tipo que se acompaña de un análisis teórico, demostrando su influencia potencial en otros métodos de cuantización, como OPTQ.

¿Disfrutas de estos artículos y resúmenes de noticias? ¡Recibe un resumen diario en tu bandeja de entrada!

¡La sección de la Comunidad Aprendamos IA Juntos!

¡Meme de la semana!

Meme compartido por neon8052

Publicación destacada de la comunidad en Discord

DrDub ha iniciado un proyecto notable llamado “Tell-and-Show”, que sirve como un experimento en aprendizaje automático propiedad de la comunidad. El proyecto crea perfiles de recomendación exclusivamente tuyos. También proporciona herramientas y modelos disponibles para ser adoptados por otros proyectos de software libre, para mejorar la utilidad de estos perfiles de recomendación. ¡Échale un vistazo aquí y apoya a un miembro de la comunidad! Puedes ayudar a este proyecto compartiendo tus preferencias individuales sobre elementos clave o unirte como voluntario. Comparte tus preguntas y comentarios en el hilo aquí.

¡Encuesta de IA de la semana!

Únete a la discusión en Discord.

Sección seleccionada por TAI

Artículo de la semana

Un marco para servir eficientemente tus modelos de lenguaje grandes por Zoumana Keita

Implementar modelos de lenguaje grandes es sin duda una de las tareas más desafiantes, no porque los equipos de implementación sean incompetentes, sino simplemente debido a la complejidad de implementar este tipo de modelos. Aquí es donde entra en juego la biblioteca vLLM, una biblioteca de código abierto desarrollada por UC Berkeley bajo la licencia Apache. La filosofía detrás de vLLM es hacer que el servicio y la inferencia de modelos de lenguaje grandes sean asequibles tanto para la industria como para los pequeños equipos de investigación.

Nuestros artículos imprescindibles

Desarrollando intuición sobre los conceptos detrás de los modelos de lenguaje grandes como ChatGPT – Parte 1: Redes neuronales, Transformers, Preentrenamiento y Ajuste fino por Stephen Bonifacio

Redes generativas adversarias (GANs) para la ampliación de imágenes por Tan Pengshi Alvin

Las principales noticias de visión por computadora de la semana del 14/8 al 20/8 por Youssef Hosni

Si deseas publicar con Towards AI, consulta nuestras pautas y regístrate. Publicaremos tu trabajo en nuestra red si cumple con nuestras políticas editoriales y estándares.

Ofertas de trabajo

Lista de espera: Mentor – Carrera de Ingeniería de Datos @Springboard (Medio tiempo/Remoto)

Ingeniero de software intermedio @Datacom (Remoto)

Desarrollador de software líder @TherapyNotes.com (Remoto)

Ingeniero de software @Sonovate (Remoto)

Ingeniero de aprendizaje automático líder, Algoritmo de recomendación @Multi Media LLC (Remoto)

Ingeniero de software senior, Implementación de acciones @GitHub (Remoto)

Ingeniero de software – Pasantía @Bayut | dubizzle (Dubai, Emiratos Árabes Unidos)

¿Interesado en compartir una oportunidad de trabajo aquí? Contacta a [email protected].

Si te estás preparando para tu próxima entrevista de aprendizaje automático, ¡no dudes en visitar nuestro sitio web líder en preparación de entrevistas, confetti!

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

artificial intelligenceDeep LearningMachine LearningTechnologyTowards Ai

Was this article helpful?

93 out of 132 found this helpful

Este boletín de inteligencia artificial es todo lo que necesitas #62

Lo que sucedió esta semana en IA por Louie

Noticias más destacadas

Cinco lecturas/videos de 5 minutos para seguir aprendiendo

Artículos y Repositorios

¡La sección de la Comunidad Aprendamos IA Juntos!

¡Meme de la semana!

Publicación destacada de la comunidad en Discord

¡Encuesta de IA de la semana!

Sección seleccionada por TAI

Artículo de la semana

Nuestros artículos imprescindibles

Ofertas de trabajo

Was this article helpful?

MLOps para la inferencia por lotes con monitoreo y reentrenamiento del modelo utilizando Amazon SageMaker, HashiCorp Terraform y GitLab CI/CD

Mapeando América del Sur con R Una inmersión profunda en la geo-visualización

Inteligencia Artificial

Wimbledon utilizará inteligencia artificial para comentarios en video de aspectos destacados.

Elon Musk y el equipo de XAi lanzan Grok la nueva frontera de la Inteligencia Artificial (IA) con datos en vivo y el competidor más fuerte de ChatGPT

Los mejores cursos de IA de universidades con listas de reproducción de YouTube

Esta investigación de IA propone SMPLer-X Un modelo de base generalista para captura de movimiento humano en 3D/4D a partir de entradas monoculares.

Investigadores de ETH Zurich presentan la arquitectura Fast Feedforward (FFF) un par de la arquitectura Feedforward (FF) que accede a bloques de sus neuronas en tiempo logarítmico.

Optimizando los costos computacionales con AutoMix Un enfoque estratégico de IA para aprovechar modelos de lenguaje grandes desde la nube