微軟發布三款自研AI基礎模型強化技術自主性

19:09, 06 四月

编辑者： Aleksandr Lytviak

iframe { display: none; }

2026年4月2日，微軟（Microsoft）宣布推出三款由內部團隊自主研發的生成式人工智慧基礎模型，此舉被視為其推動「AI自給自足」戰略的關鍵舉措，旨在與OpenAI和Google等業界主要參與者展開直接競爭。這三項新模型分別為MAI-Transcribe-1（語音轉文字）、MAI-Voice-1（語音生成）以及MAI-Image-2（圖像生成），它們的發布不僅展現了微軟在多模態AI領域的技術能力，也標誌著公司試圖降低對外部合作夥伴的依賴。

這批新模型已透過微軟的Foundry平台和MAI Playground向開發者開放預覽，涵蓋了企業級AI中語音和視覺處理的商業核心能力，這是微軟首次將自研模型推向商業應用。在語音轉文字領域，MAI-Transcribe-1在FLEURS基準測試的25種主要語言中，取得了平均詞錯誤率（WER）3.8%的成績，根據微軟的基準測試，該模型在所有25種語言上均超越了OpenAI的Whisper-large-v3模型，並在22種語言中勝過Google的Gemini 3.1 Flash。該模型批次轉錄速度比先前的Azure Fast服務快了2.5倍，定價為每小時0.36美元，目前已開始在Copilot的語音模式和Microsoft Teams中分階段部署。

在語音生成方面，MAI-Voice-1模型具備在不到一秒內生成60秒音訊的能力，同時能保留長篇內容中的說話者身份特徵，並支援從數秒音訊樣本創建自訂聲音。該模型定價為每百萬字元22美元，其效率使其在語音代理和語音體驗開發中具備競爭力。圖像生成方面，第二代模型MAI-Image-2宣稱生成速度比前代快了兩倍，並在Arena.ai的文字轉圖像排行榜上名列第三，已開始在Bing和PowerPoint等微軟自有產品中進行分階段推廣。

這些模型的推出，體現了在AI首席執行官穆斯塔法·蘇萊曼（Mustafa Suleyman）領導下的微軟AI超級智慧團隊，加速構建自有技術堆疊的決心。蘇萊曼曾表示，公司的目標是建立「專業級通用人工智慧」（professional grade AGI），旨在自動化知識工作，並強調開發的AI系統必須保持在人類控制之下，即「人文主義超級智慧」（humanist superintelligence）。

與此同時，微軟正試圖釐清圍繞其消費者版Copilot使用條款的爭議。該條款中一項聲明指出，Copilot「僅供娛樂目的」，且用戶需「自擔風險」使用，此措辭可追溯至2023年2月的一份協議，並在2025年10月進行了更新。微軟發言人回應稱，該措辭是一個「遺留條款」，不再反映Copilot的現狀，並將在下一次更新中進行修改。此法律免責聲明與首席執行官薩蒂亞·納德拉（Satya Nadella）在財報電話會議上對Copilot商業價值的宣傳之間存在明顯的認知落差，引發了對微軟產品責任歸屬的質疑。值得注意的是，OpenAI、Anthropic和Meta等競爭對手也使用了類似的責任限制語言，但避免了明確使用「娛樂目的」的表述。

微軟的「AI自給自足」戰略，是在2025年10月與OpenAI重組合作關係後加速推進的，該重組賦予了微軟獨立開發前沿模型的權利，並將其知識產權權益延長至2032年。此次三款基礎模型的發布，結合其積極的定價策略，旨在以更具競爭力的成本提供服務，進一步鞏固微軟在快速發展的AI生態系統中的戰略地位。

5 浏览量