中國AI開發商DeepSeek於2025年9月29日發布了其最新的實驗性模型DeepSeek-V3.2-Exp。此模型建立在V3.1-Terminus的基礎上,引入了創新的DeepSeek Sparse Attention (DSA) 技術,顯著提升了處理長文本序列的訓練和推理效率,同時保持了與V3.1-Terminus幾乎相同的輸出品質。此次發布標誌著DeepSeek在追求更高效能Transformer架構研究方面的重要進展,並被視為邁向下一代AI架構的關鍵過渡步驟。
DSA技術透過僅處理文本序列中相關的部分,大幅降低了運算需求和記憶體使用量,這對於需要處理大量資訊的應用場景至關重要。DeepSeek表示,V3.2-Exp在多項基準測試中表現與V3.1-Terminus相當,甚至在程式設計挑戰等部分任務上略有提升。此次發布也伴隨著API價格的顯著調降,降幅超過50%,旨在吸引更廣泛的開發者社群,並加速其AI解決方案的普及。
DeepSeek將此次實驗性模型的發布選擇在Hugging Face等開發者論壇上進行,強調了開源社群在推動AI技術發展中的關鍵作用。公司不僅提供了模型的推理程式碼和CUDA核心,還開源了TileLang版本的GPU運算子。此次DeepSeek的舉動,不僅展現了其在模型效能上的進步,特別是在長文本處理這一關鍵領域,更透過大幅降低API價格,展現了其擴大市場份額的決心。
此次DeepSeek的策略性部署,有望在其競爭激烈的市場中佔據有利位置,並為開發者和企業提供更具吸引力的選擇。此舉也為整個AI產業帶來了新的發展動力,預示著更高效、更易於取得的AI工具將會加速創新和應用。