Microsoft lance trois modèles d'IA fondamentaux propriétaires pour concurrencer OpenAI et Google
Édité par : Aleksandr Lytviak
Le jeudi 2 avril 2026, Microsoft a annoncé le lancement de trois nouveaux modèles fondamentaux développés en interne, une étape majeure dans sa stratégie d'« autosuffisance en IA ». Cette initiative positionne l'entreprise en concurrence directe avec des laboratoires de recherche majeurs tels qu'OpenAI et Google, tout en répondant aux critiques concernant les conditions d'utilisation de la version grand public de Copilot.
Les trois modèles — MAI-Transcribe-1, MAI-Voice-1 et MAI-Image-2 — sont désormais accessibles aux clients commerciaux par l'intermédiaire de la plateforme Microsoft Foundry et du MAI Playground. Cette orientation stratégique, pilotée par Mustafa Suleyman, PDG de Microsoft AI, vise à diminuer la dépendance vis-à-vis des partenaires externes, une décision confirmée après la restructuration des accords avec OpenAI en octobre 2025.
Le modèle MAI-Transcribe-1, spécialisé dans la conversion de la voix en texte, établit une nouvelle référence de précision. Microsoft affirme que ce modèle atteint le taux d'erreur de mots (WER) moyen le plus bas sur les bancs d'essai FLEURS pour les 25 langues les plus courantes, surpassant notamment Whisper-large-v3 d'OpenAI avec un WER moyen de 3,9 %. Optimisé pour les environnements réels, il gère le bruit de fond et les paroles superposées, offrant une vitesse de transcription par lots 2,5 fois supérieure à l'offre Azure Fast précédente. Proposé à 0,36 USD par heure sur Foundry, il est présenté comme offrant le meilleur rapport qualité-prix parmi les grands fournisseurs de cloud.
Concernant la génération vocale, MAI-Voice-1 démontre une capacité à produire un discours naturel et expressif, générant 60 secondes d'audio en une seule seconde grâce à une utilisation efficace des GPU. Ce modèle permet aux développeurs de créer des voix personnalisées à partir de seulement quelques secondes d'échantillons audio. Il est tarifé à 22 USD par million de caractères et est en cours d'intégration dans les expériences Copilot, notamment pour les fonctionnalités audio et les podcasts, entrant en concurrence directe avec des acteurs spécialisés dans l'IA vocale.
Le troisième modèle, MAI-Image-2, est la deuxième génération du créateur d'images de Microsoft, affichant des performances de génération au moins deux fois plus rapides que son prédécesseur. Il s'est classé dans le top trois du classement Arena.ai pour la génération de texte en image et est déployé dans des produits comme Bing et PowerPoint. Le géant mondial du marketing WPP utilise déjà MAI-Image-2 pour la production créative à grande échelle. Les tarifs sont fixés à 5 USD par million de jetons pour l'entrée de texte et 33 USD par million de jetons pour la sortie d'image.
Parallèlement à ces développements technologiques, Microsoft fait l'objet d'un examen concernant les conditions d'utilisation de la version grand public de Copilot, qui stipulent que l'outil est « uniquement à des fins de divertissement ». Cette clause, mise à jour en octobre 2025, est en contradiction avec la promotion de Copilot comme outil de productivité essentiel par Satya Nadella, PDG de Microsoft. Un porte-parole a qualifié cette formulation de « terme hérité » qui sera retiré lors de la prochaine mise à jour, reconnaissant qu'elle ne reflète plus l'usage actuel. Cette divergence entre la réalité commerciale et le langage légal met en lumière les ambiguïtés juridiques persistantes dans le déploiement des outils d'IA générative.
5 Vues
Sources
Business Insider
VentureBeat
AI Business
The Register
Business Insider
Mashable
Lire plus d'articles sur ce sujet :
Avez-vous trouvé une erreur ou une inexactitude ?Nous étudierons vos commentaires dans les plus brefs délais.



