Microsoft випускає три власні базові моделі ШІ, кидаючи виклик OpenAI та Google

Відредаговано: Aleksandr Lytviak

Корпорація Microsoft 2 квітня 2026 року представила три нові, повністю внутрішньо розроблені базові моделі штучного інтелекту, що охоплюють транскрипцію мовлення, генерацію голосу та створення зображень. Цей запуск є прямим сигналом намірів компанії конкурувати з OpenAI та Google на рівні розробки моделей, а не лише їх дистрибуції.

Нові моделі — MAI-Transcribe-1, MAI-Voice-1 та MAI-Image-2 — стали комерційно доступними через платформу Microsoft Foundry та новий простір для експериментів MAI Playground. Вони є першим публічним результатом роботи команди Microsoft AI Superintelligence, яку очолює Мустафа Сулейман, сформованої шість місяців тому для реалізації незалежної траєкторії розвитку, відомої як «ШІ-самодостатність». Ця стратегія стала можливою після реструктуризації партнерства з OpenAI у жовтні 2025 року, яка надала Microsoft право самостійно розвивати системи до рівня AGI.

Модель розпізнавання мовлення MAI-Transcribe-1 встановила новий еталон точності, демонструючи середній показник помилок (WER) 3,8% у бенчмарках FLEURS, що, за заявами Microsoft, перевершує показники OpenAI Whisper-large-v3 у 25 основних мовах. Крім того, система забезпечує швидкість пакетної транскрипції, що у 2,5 рази перевищує можливості попередньої пропозиції Azure Fast, при цьому її GPU-витрати приблизно на 50% нижчі за провідні аналоги. Наразі модель не підтримує діаризацію чи потокову передачу, але ці функції заплановані до випуску.

Друга модель, MAI-Voice-1, є генератором мовлення, здатним створювати 60 секунд виразного аудіо менш ніж за одну секунду на одному графічному процесорі, зберігаючи ідентичність голосу. Вона конкурує з комерційними стартапами та пропонується за ціною 22 долари за мільйон символів. Третє рішення, MAI-Image-2, друге покоління внутрішньої моделі створення зображень, пропонує щонайменше подвоєну швидкість генерації порівняно з попередником і посідає третє місце у рейтингу Arena.ai, поступаючись лише моделям Google та OpenAI.

Паралельно з технологічним розгортанням, Microsoft зіткнулася з увагою щодо умов використання споживчої версії Copilot, де міститься застереження, що інструмент призначений «лише для розважальних цілей». Цей пункт, оновлений у жовтні 2025 року, суперечить агресивному маркетингу Copilot як бізнес-інструменту. Речник компанії назвав це «застарілим формулюванням», яке буде видалено з наступним оновленням, визнаючи, що воно не відображає поточного комерційного застосування. Подібні юридичні застереження щодо відповідальності за помилки присутні у конкурентів, включаючи OpenAI.

Ці мультимодальні можливості вже інтегруються у власні продукти компанії, зокрема в режим «Голос» Copilot та Bing Image Creator. Стратегія «ШІ-самодостатності» передбачає зменшення залежності від OpenAI, незважаючи на те, що Microsoft залишається одним із найбільших інвесторів, володіючи приблизно 27% прибуткового підрозділу партнера. Нова архітектура розробки, що вимагає значних капітальних витрат, зокрема на власні ШІ-чипи, спрямована на створення «професійного AGI» для корпоративного сектору.

5 Перегляди

Джерела

  • Business Insider

  • VentureBeat

  • AI Business

  • The Register

  • Business Insider

  • Mashable

Знайшли помилку чи неточність?Ми розглянемо ваші коментарі якомога швидше.