DeepSeek Lance de Nouveaux Modèles d'IA avec des Capacités de Raisonnement Améliorées

18:59, 21 janvier

Édité par : Veronika Nazarova

DeepSeek a publié ses modèles principaux DeepSeek-R1-Zero et DeepSeek-R1, ainsi que six versions distillées allant de 1,5 milliard à 70 milliards de paramètres. Ces nouveaux modèles, basés sur des architectures open-source comme Qwen et Llama, utilisent des données générées par le modèle R1 complet.

Le plus petit modèle peut fonctionner sur un ordinateur portable, tandis que la version complète nécessite une puissance de calcul substantielle. Cette sortie a suscité un intérêt considérable dans la communauté IA, car de nombreux modèles open-weight existants ont du mal à égaler les modèles propriétaires comme le o1 d'OpenAI en matière de benchmarks de raisonnement.

Le modèle R1 se distingue en utilisant une approche de raisonnement en temps d'inférence, simulant un processus de pensée semblable à celui des humains pour résoudre des requêtes. Cette classe innovante de modèles, appelée raisonnement simulé (SR), a gagné en importance après la sortie de la famille de modèles o1 d'OpenAI en septembre 2024.

Lisez plus d’actualités sur ce sujet :

06 avril

Alibaba Unveils QwQ-32B, a New Open-Source AI Model Rivaling DeepSeek-R1

29 janvier

DeepSeek Challenges Industry Standards with Unique AI Architecture

07 mai

Meta's Llama 4: New Multimodal AI Models with Restrictions for EU Developers

Avez-vous trouvé une erreur ou une inexactitude ?

Nous étudierons vos commentaires dans les plus brefs délais.