Este boletín de inteligencia artificial es todo lo que necesitas #62
Boletín IA necesario #62
Lo que sucedió esta semana en IA por Louie
Esta semana hemos estado siguiendo el desarrollo de modelos de codificación en META, así como las nuevas capacidades de ajuste fino en OpenAI. Meta ha introducido Code LLaMA, un gran modelo de lenguaje con la capacidad de generar código basado en instrucciones y describir códigos. Han presentado tres iteraciones con diferentes recuentos de parámetros (7B, 13B y 34B), cada una de las cuales ha sido entrenada con 500 mil millones de tokens adicionales relacionados con el código. Los modelos son compatibles con lenguajes de programación ampliamente reconocidos como Python, C++, Java, PHP y otros. Además, se han construido dos modelos especializados sobre este modelo base. Code LLaMA – Instruct es la iteración ajustada de Code LLaMA, diseñada para seguir instrucciones. Además, está Code LLaMA – Python, un modelo dedicado diseñado específicamente para el lenguaje de programación Python. Los modelos están disponibles bajo licencias tanto para investigación como para uso comercial. La versión de código abierto de este modelo permite una rápida iteración y ya hemos visto otros modelos construidos sobre él, incluido WizardCoder, que ha demostrado un rendimiento superior en comparación con la mayoría de los modelos de lenguaje existentes, acercándose pero sin llegar al nivel de GPT-4.
En otras noticias importantes, OpenAI ha introducido la capacidad de ajustar fino el modelo GPT-3.5-turbo como un servicio. Es importante destacar que utilizar el modelo ajustado fino para inferencias conlleva un aumento significativo en el costo. OpenAI también ha presentado ChatGPT Enterprise, que ofrece un uso sin restricciones, mayor velocidad y una ventana de contexto extendida para organizaciones.
Estamos contentos de ver el lanzamiento de Code LLaMA y creemos que hay un gran potencial para modelos ajustados fino y optimizados para la codificación, lo que puede generar mejoras significativas, tanto como herramientas de copiloto para desarrolladores, como para abrir el desarrollo de software a personas que no son desarrolladoras. El lanzamiento del ajuste fino de GPT Turbo también es emocionante, y esperamos que conduzca a la creación de modelos de codificación ajustados fino de alta calidad, pero estamos particularmente entusiasmados con la posibilidad de ajustar fino para GPT-4 que se abrirá más adelante este año. Creemos que un GPT-4 ajustado fino para la codificación tiene un potencial increíble.
– Louie Peters – Cofundador y CEO de Towards AI
- MLOps para la inferencia por lotes con monitoreo y reentrenamiento del modelo utilizando Amazon SageMaker, HashiCorp Terraform y GitLab CI/CD
- Framework Permite a los Robots Realizar Tareas Interactivas en Orden Secuencial
- Estos ingeniosos drones pueden unirse en el aire para formar un robot más grande y fuerte
Noticias más destacadas
- Se lanzó el ajuste fino de GPT-3.5 Turbo
OpenAI ha introducido el ajuste fino para GPT-3.5 Turbo, que ofrece un rendimiento mejorado en tareas específicas. Esta versión refinada puede igualar o incluso superar las capacidades del modelo base GPT-4. Los probadores iniciales han logrado reducir sustancialmente la longitud de las instrucciones mediante el proceso de ajuste fino. Los costos de entrenamiento y uso de entrada/salida se proporcionan a $0.008, $0.012 y $0.016 por cada 1,000 tokens, respectivamente.
2. Introducción de Code Llama, un modelo de lenguaje grande de última generación para la codificación
Meta ha lanzado Code Llama, un avanzado LLM para la codificación que puede generar código y lenguaje natural relacionado con el código. Está disponible en tres modelos y diferentes tamaños para satisfacer diferentes necesidades. Admite muchos de los lenguajes más populares utilizados en la actualidad, incluyendo Python, C++, Java, PHP, TypeScript (JavaScript), C# y Bash.
3. Introducción de un modelo multimodal fundamental para la traducción de voz
Meta ha desarrollado un sólido modelo fundamental conocido como SeamlessM4T, capaz de gestionar diversas tareas de texto y voz en 100 idiomas. Incluye reconocimiento automático de voz, traducción de voz a texto, traducción de voz a voz, traducción de texto a texto y traducción de texto a voz, admitiendo una amplia gama de idiomas de entrada y salida.
4. Introducción de ChatGPT Enterprise
OpenAI ha lanzado ChatGPT Enterprise, que ofrece características de seguridad y privacidad adecuadas para el uso empresarial. Esta versión ofrece acceso ilimitado a GPT-4 a velocidades más altas, ventanas de contexto extendidas (32k) para manejar entradas más largas, capacidades avanzadas de análisis de datos, opciones de personalización y características adicionales.
5. Alibaba lanza un nuevo chatbot que puede “leer” imágenes
Alibaba Cloud ha presentado dos modelos de IA de código abierto: Qwen-VL y Qwen-VL-Chat. Estos modelos están entrenados utilizando el LLM Tongyi Qianwen (Qwen) de la empresa. Pueden interpretar datos visuales, como texto en imágenes, y responder a consultas basadas en la ubicación, como ofrecer indicaciones interpretando imágenes de señales.
Cinco lecturas/videos de 5 minutos para seguir aprendiendo
- Haciendo LLMs más ligeros con AutoGPTQ y Transformers
Hugging Face ha introducido la integración de AutoGPTQ en Transformers, facilitando la cuantización de 2, 3, 4 y 8 bits con una reducción de precisión insignificante. Esta integración es compatible tanto con las GPUs de Nvidia como con las GPUs de AMD con RoCm.
2. Enseñando a los modelos de lenguaje a razonar algorítmicamente
Este paper explora la efectividad de enseñar razonamiento algorítmico a los LLMs, centrándose en superar desafíos como el sobreajuste y las correlaciones espurias. Propone un enfoque de cuatro pasos que incluye formular algoritmos como habilidades, enseñar múltiples habilidades simultáneamente, enseñar la composición de habilidades y enseñar el uso de habilidades como herramientas.
3. Code Llama en Hugging Face
Code Llama ahora es accesible a través de Hugging Face, ofreciendo la capacidad de ejecutar rellenado de código utilizando los modelos 7B y 13B. Se ha puesto a disposición bajo la misma licencia comunitaria permisiva que Llama 2 y está abierto para su uso comercial.
4. Lenguaje a recompensas para la síntesis de habilidades robóticas
Los sistemas de lenguaje a recompensas, impulsados por LLMs, permiten a los robots aprender directamente del lenguaje. Estos sistemas traducen instrucciones en lenguaje natural en códigos que especifican recompensas, calculan recompensas basadas en las acciones del robot y facilitan el aprendizaje a través del aprendizaje por refuerzo (RL).
5. ¿Qué es MetaGPT? Agentes LLM colaborando para resolver tareas complejas
MetaGPT representa un enfoque novedoso para mejorar las colaboraciones entre agentes de IA. Este video revela el funcionamiento interno del diseño innovador de MetaGPT, profundiza en el papel de los SOPs (Procedimientos Operativos Estándar) y explora cómo varios agentes de IA colaboran de manera fluida.
Artículos y Repositorios
- Reinforced Self-Training (ReST) para Modelado de Lenguaje
Este paper presenta un algoritmo sencillo para alinear LLMs con las preferencias humanas, inspirado en el aprendizaje por refuerzo en lotes crecientes. Reinforced Self-Training (ReST), desarrollado por DeepMind, ofrece una alternativa más económica a RLHF. Emplea un proceso de dos pasos, Crecer y Mejorar, para mejorar el conjunto de datos de entrenamiento y ajustar finamente el LLM.
2. Giraffe – LLMs de contexto largo
Giraffe es una nueva serie de modelos derivados de LLaMA y LLaMA2, que incluyen variantes con tamaños de ventana de contexto de 4k, 16k y 32k tokens. Estos modelos han sido ajustados finamente en base a LLaMA y LLaMA2, y presentan experimentos que involucran la expansión de la ventana de contexto a través de modificaciones de codificación posicional.
3. El nuevo LLM Platypus encabeza la clasificación de LLMs de Hugging Face
Platypus, el último LLM destacado en el Open LLM Leaderboard de HuggingFace, utiliza el conjunto de datos Open-Platypus para lograr un rendimiento impresionante en STEM y lógica. Aborda eficazmente el sesgo durante el entrenamiento utilizando módulos LoRA y la biblioteca PEFT. Sin embargo, su desafío con los idiomas más allá del inglés se atribuye a su modelo subyacente, LLaMa-2.
4. Graph of Thoughts: Resolver problemas elaborados con grandes modelos de lenguaje
Graph of Thoughts (GoT) representa un marco que mejora las capacidades de promoción de los grandes modelos de lenguaje (LLMs) más allá de lo que los paradigmas como Cadena de Pensamiento o Árbol de Pensamiento (ToT) proporcionan. GoT ha demostrado un rendimiento mejorado en comparación con métodos alternativos, mejorando notablemente la calidad de clasificación (62%) al tiempo que reduce los costos (31%).
5. QuIP: Cuantización de 2 bits de grandes modelos de lenguaje con garantías
Este paper introduce la cuantización con procesamiento incoherente (QuIP), un nuevo enfoque que logra la cuantización de 2 bits de modelos de lenguaje utilizando redondeo adaptativo. Es el primer algoritmo de su tipo que se acompaña de un análisis teórico, demostrando su influencia potencial en otros métodos de cuantización, como OPTQ.
¿Disfrutas de estos artículos y resúmenes de noticias? ¡Recibe un resumen diario en tu bandeja de entrada!
¡La sección de la Comunidad Aprendamos IA Juntos!
¡Meme de la semana!
Meme compartido por neon8052
Publicación destacada de la comunidad en Discord
DrDub ha iniciado un proyecto notable llamado “Tell-and-Show”, que sirve como un experimento en aprendizaje automático propiedad de la comunidad. El proyecto crea perfiles de recomendación exclusivamente tuyos. También proporciona herramientas y modelos disponibles para ser adoptados por otros proyectos de software libre, para mejorar la utilidad de estos perfiles de recomendación. ¡Échale un vistazo aquí y apoya a un miembro de la comunidad! Puedes ayudar a este proyecto compartiendo tus preferencias individuales sobre elementos clave o unirte como voluntario. Comparte tus preguntas y comentarios en el hilo aquí.
¡Encuesta de IA de la semana!
Únete a la discusión en Discord.
Sección seleccionada por TAI
Artículo de la semana
Un marco para servir eficientemente tus modelos de lenguaje grandes por Zoumana Keita
Implementar modelos de lenguaje grandes es sin duda una de las tareas más desafiantes, no porque los equipos de implementación sean incompetentes, sino simplemente debido a la complejidad de implementar este tipo de modelos. Aquí es donde entra en juego la biblioteca vLLM, una biblioteca de código abierto desarrollada por UC Berkeley bajo la licencia Apache. La filosofía detrás de vLLM es hacer que el servicio y la inferencia de modelos de lenguaje grandes sean asequibles tanto para la industria como para los pequeños equipos de investigación.
Nuestros artículos imprescindibles
Desarrollando intuición sobre los conceptos detrás de los modelos de lenguaje grandes como ChatGPT – Parte 1: Redes neuronales, Transformers, Preentrenamiento y Ajuste fino por Stephen Bonifacio
Redes generativas adversarias (GANs) para la ampliación de imágenes por Tan Pengshi Alvin
Las principales noticias de visión por computadora de la semana del 14/8 al 20/8 por Youssef Hosni
Si deseas publicar con Towards AI, consulta nuestras pautas y regístrate. Publicaremos tu trabajo en nuestra red si cumple con nuestras políticas editoriales y estándares.
Ofertas de trabajo
Lista de espera: Mentor – Carrera de Ingeniería de Datos @Springboard (Medio tiempo/Remoto)
Ingeniero de software intermedio @Datacom (Remoto)
Desarrollador de software líder @TherapyNotes.com (Remoto)
Ingeniero de software @Sonovate (Remoto)
Ingeniero de aprendizaje automático líder, Algoritmo de recomendación @Multi Media LLC (Remoto)
Ingeniero de software senior, Implementación de acciones @GitHub (Remoto)
Ingeniero de software – Pasantía @Bayut | dubizzle (Dubai, Emiratos Árabes Unidos)
¿Interesado en compartir una oportunidad de trabajo aquí? Contacta a [email protected].
Si te estás preparando para tu próxima entrevista de aprendizaje automático, ¡no dudes en visitar nuestro sitio web líder en preparación de entrevistas, confetti!
![https://www.confetti.ai/](https://miro.medium.com/v2/resize:fit:640/format:webp/1*rhdWMTsJYZ9rCx2jVVVCCg.png)
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Guía para principiantes sobre el ajuste fino de modelos de lenguaje grandes (LLMs)
- Intérprete de código ChatGPT en Aprendizaje Automático ¿Es efectivo?
- Validación de datos para aplicaciones de PySpark utilizando Pandera
- OpenAI revela ChatGPT Enterprise con el poder de GPT-4
- Investigadores de S-Lab y NTU proponen Scenimefy un nuevo marco de traducción de imagen a imagen semi-supervisado que cierra la brecha en la representación automática de escenas de anime de alta calidad a partir de imágenes del mundo real.
- Dentro de Code Llama La entrada de Meta AI en el espacio de Code LLM
- C++ feat. Python Conecta, Incrusta, Instala con Facilidad