DeepSeek abre el código fuente del modelo DeepSeek-67B El último rival del ChatGPT proveniente de China

DeepSeek revela el código fuente del modelo DeepSeek-67B, el último competidor del ChatGPT proveniente de China

La startup china de IA DeepSeek AI ha iniciado una nueva era en los grandes modelos de lenguaje (LLM, por sus siglas en inglés) al presentar la familia DeepSeek LLM. Compuesta por el DeepSeek LLM 7B/67B Base y el DeepSeek LLM 7B/67B Chat, estos modelos de código abierto representan un notable avance en la comprensión del lenguaje y su aplicación versátil.

Una de las características destacadas de los LLM de DeepSeek es el excepcional rendimiento de la versión Base 67B en comparación con la Base Llama2 70B, mostrando capacidades superiores en razonamiento, codificación, matemáticas y comprensión del lenguaje chino.

Este salto cualitativo en las capacidades de los LLM de DeepSeek demuestra su eficiencia en una amplia variedad de aplicaciones. Destaca en particular el logro de DeepSeek Chat, que obtuvo una impresionante tasa de aprobación del 73.78% en el benchmark de codificación HumanEval, superando a modelos de tamaño similar. Exhibió una notable habilidad al obtener un puntaje del 84.1% en el conjunto de datos de matemáticas GSM8K sin ajustes finos.

La decisión de DeepSeek AI de compartir en código abierto las versiones de 7 mil millones y 67 mil millones de parámetros de sus modelos, incluyendo variantes base y especializadas de chat, tiene como objetivo fomentar la investigación de IA y las aplicaciones comerciales a gran escala.

Para garantizar evaluaciones de rendimiento imparciales y exhaustivas, DeepSeek AI diseñó nuevos conjuntos de problemas, como el examen nacional de secundaria de Hungría y el conjunto de datos de evaluación de seguimiento de instrucciones de Google. Estas evaluaciones resaltaron eficazmente las capacidades excepcionales del modelo en el manejo de exámenes y tareas previamente no vistos.

La startup proporcionó información detallada sobre su meticuloso proceso de recopilación y entrenamiento de datos, enfocándose en mejorar la diversidad y originalidad al tiempo que se respetan los derechos de propiedad intelectual. El proceso de varias etapas incluyó la selección de textos de calidad, formulaciones matemáticas, código, obras literarias y varios tipos de datos, y la implementación de filtros para eliminar la toxicidad y el contenido duplicado.

Los modelos de lenguaje de DeepSeek, diseñados con arquitecturas similares a LLaMA, fueron sometidos a un riguroso proceso de pre-entrenamiento. El modelo 7B utilizó atención de múltiples cabezas, mientras que el modelo 67B aprovechó la atención agrupada por consulta. El régimen de entrenamiento empleó tamaños de lote grandes y un horario de tasa de aprendizaje de varias etapas, asegurando capacidades de aprendizaje robustas y eficientes.

Al liderar el lanzamiento de estos LLM de código abierto de última generación, DeepSeek AI ha marcado un hito fundamental en la comprensión del lenguaje y la accesibilidad de la IA, fomentando la innovación y aplicaciones más amplias en el campo.

El artículo original DeepSeek Open-Sources DeepSeek-67B Model: The Latest ChatGPT Rival from China fue publicado en MarkTechPost.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Esta investigación de Aprendizaje Automático desarrolla un modelo de IA para eliminar de manera efectiva los sesgos en un conjunto de datos.

La recopilación de datos puede ser una oportunidad primordial para la introducción no intencionada de sesgos de textu...

Inteligencia Artificial

Este artículo de IA hace público HyperDreamer un avance en la creación de contenido 3D con texturizado avanzado, modelado de 360 grados y edición interactiva

No es fácil generar modelos en 3D detallados y realistas a partir de una sola imagen RGB. Investigadores del Laborato...

Inteligencia Artificial

Los investigadores de Meta AI presentan GenBench un marco revolucionario para avanzar en la generalización en el procesamiento del lenguaje natural.

La capacidad de generalización de un modelo o de aplicar de manera efectiva su conocimiento aprendido a nuevos contex...

Inteligencia Artificial

Este artículo de IA presenta LLaVA-Plus un asistente multimodal de propósito general que amplía las capacidades de los modelos multimodales grandes

Crear asistentes de propósito general que puedan llevar a cabo eficientemente diversas actividades del mundo real sig...