Microsoft Lancia Tre Modelli IA Proprietari per Competere con OpenAI e Google

Modificato da: Aleksandr Lytviak

Giovedì 2 aprile 2026, Microsoft ha introdotto formalmente tre modelli fondamentali di intelligenza artificiale sviluppati internamente, intensificando la competizione con laboratori come OpenAI e Google. Questa triade, denominata famiglia MAI, è stata resa disponibile agli sviluppatori tramite la piattaforma Microsoft Foundry e il nuovo MAI Playground, delineando la strategia aziendale per una maggiore autonomia tecnologica nel settore dell'IA.

I modelli coprono aree chiave per l'IA aziendale: la conversione da voce a testo, la generazione di voce umana realistica e la creazione di immagini digitali. L'iniziativa segna il primo rilascio significativo da quando l'Amministratore Delegato Satya Nadella ha riorganizzato la divisione AI, con il CEO di Microsoft AI, Mustafa Suleyman, ora focalizzato sullo sviluppo di modelli di frontiera e sulla superintelligenza. Suleyman ha definito il modello di trascrizione come il migliore al mondo, capace di operare con la metà delle GPU rispetto alla concorrenza allo stato dell'arte.

Il modello di trascrizione, MAI-Transcribe-1, ha stabilito un nuovo standard di accuratezza, superando il Whisper-large-v3 di OpenAI nei benchmark FLEURS con un Word Error Rate (WER) medio del 3,8%. Questo strumento è ottimizzato per ambienti reali, offre velocità di trascrizione batch 2,5 volte superiori rispetto alla precedente offerta Azure Fast di Microsoft, e mantiene elevata accuratezza su tutte le 25 lingue supportate. L'integrazione è già in fase di implementazione nelle modalità Voce di Copilot e in Microsoft Teams per trascrizioni conversazionali.

Parallelamente, MAI-Voice-1 si concentra sulla generazione vocale, producendo 60 secondi di audio espressivo in un solo secondo, un tasso di generazione 60 volte superiore al tempo reale. Il modello consente la creazione di voci personalizzate da brevi campioni audio, preservando l'identità del parlante anche su contenuti estesi, ed è prezzato a 22 dollari per milione di caratteri.

MAI-Image-2, la seconda generazione del generatore di immagini di Microsoft, ha raddoppiato la velocità di generazione rispetto al suo predecessore ed è classificato tra i primi tre modelli sulla classifica Arena.ai. Il modello è in fase di implementazione graduale in servizi quali Bing e PowerPoint, ed è stato sviluppato in collaborazione con professionisti creativi per migliorare fotorealismo e resa del testo nelle immagini.

L'annuncio dei modelli proprietari avviene in un momento in cui gli investitori richiedono chiare prove del ritorno sull'investimento per le spese infrastrutturali in IA. I modelli MAI, con prezzi aggressivi, mirano a ridurre il costo dei beni venduti per Microsoft e a esercitare pressione sui concorrenti. Tuttavia, l'azienda sta gestendo la controversia relativa ai Termini di Utilizzo della versione consumer di Copilot, che contengono la clausola, risalente a un accordo dell'ottobre 2025, che lo definisce "solo per scopi di intrattenimento". Un portavoce ha etichettato tale dicitura come un "termine legacy" che verrà rimosso nel prossimo aggiornamento, nonostante Copilot sia commercializzato come strumento di produttività aziendale integrato in Microsoft 365.

La visione di Microsoft è quella di sviluppare un'IA "umanistica", focalizzata sull'ottimizzazione della comunicazione umana. La disponibilità dei modelli su Foundry consolida l'obiettivo dell'azienda di essere la "fabbrica di agenti AI e app più completa" nel panorama tecnologico.

5 Visualizzazioni

Fonti

  • Business Insider

  • VentureBeat

  • AI Business

  • The Register

  • Business Insider

  • Mashable

Hai trovato un errore o un'inaccuratezza?Esamineremo il tuo commento il prima possibile.