DeepSeek Revoluciona o Mercado de IA com Novo Modelo Experimental e Cortes Drásticos de Preços de API

Editado por: Татьяна Гуринович

A DeepSeek, uma proeminente desenvolvedora chinesa de inteligência artificial, anunciou o lançamento de seu mais novo modelo experimental, o DeepSeek-V3.2-Exp, que representa um avanço significativo na eficiência de processamento de sequências de texto longas. Simultaneamente, a empresa implementou uma redução de mais de 50% nos preços de sua API para desenvolvedores, visando fortalecer sua posição no mercado e democratizar o acesso a soluções de IA avançadas. O DeepSeek-V3.2-Exp é um passo intermediário crucial na evolução da arquitetura da DeepSeek, construído sobre a base do modelo V3.1-Terminus.

A principal inovação do DeepSeek-V3.2-Exp é a introdução do mecanismo de Atenção Esparsa DeepSeek (DSA). Este mecanismo permite um cálculo mais seletivo dos pesos de atenção, otimizando drasticamente os custos computacionais e o uso de memória ao lidar com textos extensos, mantendo uma qualidade de saída comparável à de seu antecessor. A introdução da atenção esparsa é um desenvolvimento notável na arquitetura de modelos de linguagem, pois aborda um dos desafios centrais no processamento de sequências longas. Modelos tradicionais frequentemente lutam para manter o contexto em textos extensos, mas o DSA visa superar essas limitações, oferecendo melhorias tanto na eficiência de treinamento quanto na inferência. Em testes de benchmark, o DeepSeek-V3.2-Exp demonstrou desempenho comparável ao V3.1-Terminus, com pontuações idênticas em benchmarks como MMLU-Pro (85.0 pontos) e ligeiramente superior em desafios de programação como Codeforces (2121 pontos contra 2046 do V3.1-Terminus).

A decisão estratégica da DeepSeek de reduzir os preços de sua API em mais de 50% é um movimento ousado para impulsionar a adoção e a inovação. Essa redução de custos, impulsionada em parte pela eficiência do DSA e por mecanismos de cache aprimorados, torna suas soluções de IA mais acessíveis para uma gama mais ampla de desenvolvedores e empresas. Em cenários de alta taxa de acerto de cache, os custos de entrada podem ser reduzidos em até 70-80%, tornando a plataforma atraente mesmo para aplicações de grande escala. O anúncio foi feito no fórum de desenvolvedores Hugging Face, uma plataforma central para a comunidade de IA compartilhar e discutir modelos e avanços. A DeepSeek tem se posicionado como um player competitivo no cenário global de IA, com seus modelos anteriores, V3 e R1, já tendo demonstrado desempenho comparável aos líderes de mercado, mas a um custo significativamente menor. Esta iniciativa da DeepSeek não apenas destaca o rápido avanço da tecnologia de IA na China, mas também reflete uma tendência crescente de tornar ferramentas de IA poderosas mais acessíveis.

Ao focar na eficiência de processamento de textos longos e na redução de custos de API, a DeepSeek está capacitando a próxima onda de inovação em diversas indústrias, desde o desenvolvimento de aplicações até a pesquisa acadêmica. O modelo DeepSeek-V3.2-Exp está disponível na plataforma Hugging Face sob uma licença MIT permissiva, incentivando a ampla adoção. A empresa também lançou kernels de código aberto para pesquisa e uso de alto desempenho, sinalizando um forte compromisso em engajar a comunidade de desenvolvedores com suas inovações arquitetônicas.

Fontes

  • Valor Econômico

  • DeepSeek API Docs

Encontrou um erro ou imprecisão?

Vamos considerar seus comentários assim que possível.