微軟發布三款自研AI基礎模型 強化技術自主性

编辑者: Aleksandr Lytviak

2026年4月2日,微軟(Microsoft)宣布推出三款由內部團隊自主研發的生成式人工智慧基礎模型,此舉被視為其推動「AI自給自足」戰略的關鍵舉措,旨在與OpenAI和Google等業界主要參與者展開直接競爭。這三項新模型分別為MAI-Transcribe-1(語音轉文字)、MAI-Voice-1(語音生成)以及MAI-Image-2(圖像生成),它們的發布不僅展現了微軟在多模態AI領域的技術能力,也標誌著公司試圖降低對外部合作夥伴的依賴。

這批新模型已透過微軟的Foundry平台和MAI Playground向開發者開放預覽,涵蓋了企業級AI中語音和視覺處理的商業核心能力,這是微軟首次將自研模型推向商業應用。在語音轉文字領域,MAI-Transcribe-1在FLEURS基準測試的25種主要語言中,取得了平均詞錯誤率(WER)3.8%的成績,根據微軟的基準測試,該模型在所有25種語言上均超越了OpenAI的Whisper-large-v3模型,並在22種語言中勝過Google的Gemini 3.1 Flash。該模型批次轉錄速度比先前的Azure Fast服務快了2.5倍,定價為每小時0.36美元,目前已開始在Copilot的語音模式和Microsoft Teams中分階段部署。

在語音生成方面,MAI-Voice-1模型具備在不到一秒內生成60秒音訊的能力,同時能保留長篇內容中的說話者身份特徵,並支援從數秒音訊樣本創建自訂聲音。該模型定價為每百萬字元22美元,其效率使其在語音代理和語音體驗開發中具備競爭力。圖像生成方面,第二代模型MAI-Image-2宣稱生成速度比前代快了兩倍,並在Arena.ai的文字轉圖像排行榜上名列第三,已開始在Bing和PowerPoint等微軟自有產品中進行分階段推廣。

這些模型的推出,體現了在AI首席執行官穆斯塔法·蘇萊曼(Mustafa Suleyman)領導下的微軟AI超級智慧團隊,加速構建自有技術堆疊的決心。蘇萊曼曾表示,公司的目標是建立「專業級通用人工智慧」(professional grade AGI),旨在自動化知識工作,並強調開發的AI系統必須保持在人類控制之下,即「人文主義超級智慧」(humanist superintelligence)。

與此同時,微軟正試圖釐清圍繞其消費者版Copilot使用條款的爭議。該條款中一項聲明指出,Copilot「僅供娛樂目的」,且用戶需「自擔風險」使用,此措辭可追溯至2023年2月的一份協議,並在2025年10月進行了更新。微軟發言人回應稱,該措辭是一個「遺留條款」,不再反映Copilot的現狀,並將在下一次更新中進行修改。此法律免責聲明與首席執行官薩蒂亞·納德拉(Satya Nadella)在財報電話會議上對Copilot商業價值的宣傳之間存在明顯的認知落差,引發了對微軟產品責任歸屬的質疑。值得注意的是,OpenAI、Anthropic和Meta等競爭對手也使用了類似的責任限制語言,但避免了明確使用「娛樂目的」的表述。

微軟的「AI自給自足」戰略,是在2025年10月與OpenAI重組合作關係後加速推進的,該重組賦予了微軟獨立開發前沿模型的權利,並將其知識產權權益延長至2032年。此次三款基礎模型的發布,結合其積極的定價策略,旨在以更具競爭力的成本提供服務,進一步鞏固微軟在快速發展的AI生態系統中的戰略地位。

5 浏览量

來源

  • Business Insider

  • VentureBeat

  • AI Business

  • The Register

  • Business Insider

  • Mashable

发现错误或不准确的地方吗?我们会尽快处理您的评论。