DeepSeek abre el código fuente del modelo DeepSeek-67B El último rival del ChatGPT proveniente de China
DeepSeek revela el código fuente del modelo DeepSeek-67B, el último competidor del ChatGPT proveniente de China
La startup china de IA DeepSeek AI ha iniciado una nueva era en los grandes modelos de lenguaje (LLM, por sus siglas en inglés) al presentar la familia DeepSeek LLM. Compuesta por el DeepSeek LLM 7B/67B Base y el DeepSeek LLM 7B/67B Chat, estos modelos de código abierto representan un notable avance en la comprensión del lenguaje y su aplicación versátil.
Una de las características destacadas de los LLM de DeepSeek es el excepcional rendimiento de la versión Base 67B en comparación con la Base Llama2 70B, mostrando capacidades superiores en razonamiento, codificación, matemáticas y comprensión del lenguaje chino.
Este salto cualitativo en las capacidades de los LLM de DeepSeek demuestra su eficiencia en una amplia variedad de aplicaciones. Destaca en particular el logro de DeepSeek Chat, que obtuvo una impresionante tasa de aprobación del 73.78% en el benchmark de codificación HumanEval, superando a modelos de tamaño similar. Exhibió una notable habilidad al obtener un puntaje del 84.1% en el conjunto de datos de matemáticas GSM8K sin ajustes finos.
- Gran noticia Google retrasa el lanzamiento del modelo de IA Gemini
- Investigadores de CMU descubren ideas clave sobre el comportamiento de las redes neuronales la interacción entre datos de distribución pesada y la profundidad de la red en la formación de la dinámica de optimización
- Este artículo de IA publica una revisión detallada de los modelos de lenguaje de código abierto a gran escala que afirman alcanzar o superar a ChatGPT en diferentes tareas.
La decisión de DeepSeek AI de compartir en código abierto las versiones de 7 mil millones y 67 mil millones de parámetros de sus modelos, incluyendo variantes base y especializadas de chat, tiene como objetivo fomentar la investigación de IA y las aplicaciones comerciales a gran escala.
Para garantizar evaluaciones de rendimiento imparciales y exhaustivas, DeepSeek AI diseñó nuevos conjuntos de problemas, como el examen nacional de secundaria de Hungría y el conjunto de datos de evaluación de seguimiento de instrucciones de Google. Estas evaluaciones resaltaron eficazmente las capacidades excepcionales del modelo en el manejo de exámenes y tareas previamente no vistos.
La startup proporcionó información detallada sobre su meticuloso proceso de recopilación y entrenamiento de datos, enfocándose en mejorar la diversidad y originalidad al tiempo que se respetan los derechos de propiedad intelectual. El proceso de varias etapas incluyó la selección de textos de calidad, formulaciones matemáticas, código, obras literarias y varios tipos de datos, y la implementación de filtros para eliminar la toxicidad y el contenido duplicado.
Los modelos de lenguaje de DeepSeek, diseñados con arquitecturas similares a LLaMA, fueron sometidos a un riguroso proceso de pre-entrenamiento. El modelo 7B utilizó atención de múltiples cabezas, mientras que el modelo 67B aprovechó la atención agrupada por consulta. El régimen de entrenamiento empleó tamaños de lote grandes y un horario de tasa de aprendizaje de varias etapas, asegurando capacidades de aprendizaje robustas y eficientes.
Al liderar el lanzamiento de estos LLM de código abierto de última generación, DeepSeek AI ha marcado un hito fundamental en la comprensión del lenguaje y la accesibilidad de la IA, fomentando la innovación y aplicaciones más amplias en el campo.
El artículo original DeepSeek Open-Sources DeepSeek-67B Model: The Latest ChatGPT Rival from China fue publicado en MarkTechPost.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Perplejidad revela dos nuevos modelos de LLM en línea ‘pplx-7b-online’ y ‘pplx-70b-online
- LLM y GNN Cómo mejorar el razonamiento de ambos sistemas de IA en datos de gráficos
- Buenos ingenieros, malos ingenieros y ingenieros malvados una anécdota para líderes de datos
- Run Local LLM Inference10x Más Rápido (244 TOK/s) PyTorch II
- Descubriendo LangChain Chatea con tus documentos, traductor de chatbot, chatea con Wikipedia, generador de datos sintéticos
- 6 Cuadernos prácticos LLM gratuitos para empezar con las solicitudes de LLM
- Conozca a PepCNN una herramienta de aprendizaje profundo para predecir los residuos de unión de péptidos en proteínas utilizando características de secuencia, estructura y modelos de lenguaje.