DeepSeek представляет новые модели ИИ с улучшенными способностями К рассуждению

18:59, 21 января

Отредактировано: Veronika Nazarova

Компания DeepSeek выпустила свои основные модели DeepSeek-R1-Zero и DeepSeek-R1, а также шесть небольших дистиллированных версий с диапазоном от 1,5 млрд до 70 млрд параметров. Эти новые модели, основанные на архитектурах с открытым исходным кодом, таких как Qwen и Llama, используют данные, полученные из полной модели R1.

Самая маленькая модель может работать на ноутбуке, в то время как полная версия требует значительных вычислительных мощностей. Этот релиз привлек значительное внимание сообщества ИИ, поскольку многие существующие модели с открытым весом не смогли сравниться с собственными моделями, такими как o1 от OpenAI, в тестах на логику.

Независимый исследователь ИИ Саймон Уиллисон подчеркнул уникальные способности моделей к рассуждениям, отметив, что даже простые подсказки вызывают обширные рассуждения.

Модель R1 отличается тем, что использует подход к рассуждениям в режиме вывода, имитируя человекоподобный мыслительный процесс для решения запросов. Этот инновационный класс моделей, получивший название simulated reasoning (SR), получил широкое распространение после выхода семейства моделей o1 от OpenAI в сентябре 2024 года.

Читайте больше новостей по этой теме:

06 апреля

Alibaba Unveils QwQ-32B, a New Open-Source AI Model Rivaling DeepSeek-R1

29 января

DeepSeek Challenges Industry Standards with Unique AI Architecture

07 мая

Meta's Llama 4: New Multimodal AI Models with Restrictions for EU Developers

Вы нашли ошибку или неточность?

Мы учтем ваши комментарии как можно скорее.