DeepSeek Presenta Nuevos Modelos de IA con Capacidades de Razonamiento Mejoradas

18:59, 21 enero

Editado por: Veronika Nazarova

DeepSeek ha lanzado sus modelos principales DeepSeek-R1-Zero y DeepSeek-R1, junto con seis versiones destiladas que van desde 1.5 mil millones hasta 70 mil millones de parámetros. Estos nuevos modelos, basados en arquitecturas de código abierto como Qwen y Llama, utilizan datos generados a partir del modelo completo R1.

El modelo más pequeño puede funcionar en una laptop, mientras que la versión completa requiere una potencia de computación sustancial. Este lanzamiento ha atraído una atención significativa de la comunidad de IA, ya que muchos modelos de pesos abiertos existentes han luchado por igualar a modelos propietarios como el o1 de OpenAI en benchmarks de razonamiento.

El modelo R1 se distingue al emplear un enfoque de razonamiento en tiempo de inferencia, simulando un proceso de pensamiento similar al humano para resolver consultas. Esta clase innovadora de modelos, denominada razonamiento simulado (SR), ganó prominencia tras el lanzamiento de la familia de modelos o1 de OpenAI en septiembre de 2024.

Lea más noticias sobre este tema:

06 abril

Alibaba Unveils QwQ-32B, a New Open-Source AI Model Rivaling DeepSeek-R1

29 enero

DeepSeek Challenges Industry Standards with Unique AI Architecture

07 mayo

Meta's Llama 4: New Multimodal AI Models with Restrictions for EU Developers

¿Encontró un error o inexactitud?

Consideraremos sus comentarios lo antes posible.