Microsoft lanza Orca 2 Pionera en la lógica avanzada en modelos de lenguaje más pequeños con estrategias de entrenamiento personalizadas
Microsoft presenta Orca 2 un avance pionero en la lógica avanzada y modelos de lenguaje más compactos con estrategias de entrenamiento personalizadas
Los LLM (Modelos de Lenguaje Grande) se entrenan en grandes volúmenes de datos textuales para comprender y producir lenguaje similar al de los humanos. El GPT-3, GPT-4 y PaLM-2 son algunos ejemplos. Estos modelos realizan tareas de lenguaje complejas, incluyendo la generación de texto, la interacción conversacional y la respuesta a preguntas. Se han utilizado en diversos ámbitos, mejorando la experiencia del usuario en chatbots, codificación, búsqueda web, soporte al cliente y producción de contenido.
Sin embargo, a medida que la comunidad de IA se adentra en el vasto campo de los modelos más pequeños, Microsoft ha presentado la próxima versión de Orca llamada Orca 2, diseñada para amplificar las capacidades de los modelos de IA compactos. Orca 1, a través de la integración de explicaciones detalladas, supera a los modelos tradicionales ajustados a la instrucción en el rendimiento en pruebas desafiantes como BigBench Hard y AGIEval. Orca 2 profundiza aún más en el potencial de las señales de entrenamiento mejoradas para potenciar las capacidades de razonamiento de los modelos de lenguaje más pequeños.
El aprendizaje por imitación ha sido un enfoque prevalente para mejorar los modelos de lenguaje pequeños. Estos modelos más pequeños a menudo necesitan mejorar en habilidades de razonamiento y comprensión, aunque pueden producir contenido de manera similar a sus profesores. Aunque el aprendizaje por imitación tiene algunos beneficios, tiene desventajas que pueden limitar la capacidad de los modelos más pequeños para alcanzar su máximo potencial y evitar que utilicen las mejores soluciones posibles dada la problemática particular y las capacidades del modelo. A menudo necesitan ayuda para igualar las habilidades de razonamiento y comprensión de sus contrapartes más grandes, lo que dificulta su máximo potencial.
- Colaboración entre humanos y IA
- Plataforma de IA empresarial con Amazon Bedrock
- Estás perdiendo tiempo con tu Daily Standup diario
En lugar de simplemente imitar, Orca instruye al modelo en varias técnicas de razonamiento. Estas incluyen el procesamiento paso a paso, recordar y luego generar, recordar-razonar-generar y respuestas directas. El objetivo es guiar al modelo en la adquisición de la capacidad de discernir la estrategia de solución más efectiva adaptada a los matices de cada tarea específica.
La capacidad de razonamiento sin necesidad de entrenamiento previo de Orca 2 destaca la posibilidad de mejorar las redes neuronales más pequeñas. Microsoft sigue creyendo que los métodos de entrenamiento especializados, como el utilizado para Orca 2, pueden revelar nuevas aplicaciones útiles. Este método busca mejorar la efectividad de estas implementaciones de redes neuronales.
Lo más importante es que Orca 2 está protegido de las indicaciones iniciales que provocaron comportamientos particulares durante la fase de entrenamiento. Orca 2 se transforma en un Razonador Cauteloso a través de la innovadora técnica de Borrado de Estímulo. A diferencia de la imitación ciega, este método utiliza modelos más grandes como fuente de comportamientos de los cuales se eligen los mejores para la tarea dada.
Los investigadores probaron Orca 2 en benchmarks exhaustivos. Mostraron que supera a otros modelos equivalentes relacionados con la comprensión del lenguaje, el razonamiento de sentido común, los problemas matemáticos de múltiples pasos, la comprensión de lectura, la summarización y más. Por ejemplo, en tareas de razonamiento sin necesidad de entrenamiento previo, Orca 2-13B logra una precisión más de 25% más alta que los modelos de 13B comparables y está a la par con un modelo de 70B.
Orca 2 marca un avance significativo en la evolución de los modelos de lenguaje pequeños. Su abandono del aprendizaje por imitación convencional, junto con el enfoque en enseñar diversas técnicas de razonamiento, muestra un nuevo enfoque para liberar el potencial de los modelos de IA compactos.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Aplicación del poder generativo de la inteligencia artificial en la modernización de aplicaciones
- 10 Mejores Herramientas de Diseño de Moda de IA
- Semana de Regreso a lo Básico 4 Temas Avanzados e Implementación
- Habla con tu PDF usando la API de OpenAI Assistant
- Google Bard ahora puede resumir los videos de Youtube para ti
- Por qué importa el Hype Pensar de manera práctica sobre la IA
- Redefiniendo a los Transformadores Cómo las simples redes neuronales de avance pueden imitar los mecanismos de atención para tareas secuenciales eficientes de secuencia a secuencia