Nvidia Finalizza Accordo da 20 Miliardi con Groq, Presenterà Tecnologia LPU alla GTC 2026

15:04, 16 marzo

Modificato da: Aleksandr Lytviak

iframe { display: none; }

Nvidia Finalizza Accordo da 20 Miliardi con Groq, Presenterà Tecnologia LPU alla GTC 2026

Nvidia ha formalizzato nel dicembre 2025 un accordo di licenza strategico con la startup di chip per l'IA Groq, un'operazione che, secondo le indiscrezioni di mercato, potrebbe raggiungere un valore massimo di 20 miliardi di dollari. L'intesa non ha riguardato soltanto la proprietà intellettuale, ma ha incluso anche l'acqui-hire di personale chiave, tra cui Jonathan Ross, fondatore di Groq e precedentemente coinvolto nello sviluppo delle prime unità di elaborazione tensoriale di Google. L'accordo, descritto come una licenza non esclusiva, è considerato tra i più significativi nella storia di Nvidia e mira a integrare la tecnologia di inferenza di Groq, pur mantenendo Groq come entità indipendente sotto la guida del CEO Simon Edwards.

Il focus operativo di Groq è lo sviluppo di soluzioni per l'inferenza IA, ovvero l'applicazione in tempo reale dei modelli addestrati, un settore dove la spesa in conto capitale delle grandi aziende sta subendo una decisa virata. Questa transizione dal training all'inferenza sta rimodellando il panorama hardware, con aziende come Google e Amazon che investono in chip customizzati, quali le TPU di Google e i chip Inferentia di Amazon, per ridurre la dipendenza da Nvidia. L'operazione si inserisce in una strategia di consolidamento del mercato, neutralizzando un concorrente architettonico emergente e coprendo un potenziale vuoto nella roadmap di prodotto di Nvidia.

Il nucleo della tecnologia di Groq è la Language Processing Unit (LPU), un processore ottimizzato per l'inferenza ad alta velocità ed efficienza. A differenza delle architetture convenzionali che utilizzano la High Bandwidth Memory (HBM) esterna, l'LPU integra centinaia di megabyte di SRAM direttamente sul die come memoria di peso primaria, non come cache. Questa scelta progettuale riduce la latenza, poiché l'accesso alla SRAM on-chip richiede circa 0,3 picojoule per bit, un consumo drasticamente inferiore rispetto ai circa sei picojoule per bit necessari per accedere all'HBM esterna. Tale differenza si traduce in un risparmio energetico fino a 20 volte superiore per il movimento dei dati, che costituisce la principale fonte di consumo energetico nell'hardware AI.

Nvidia ha annunciato che presenterà un prodotto basato sulla tecnologia LPU di Groq alla conferenza GTC 2026, in programma a San Jose a partire dal 16 marzo 2026. Si prevede che questo nuovo chip utilizzerà la memoria SRAM al posto della HBM per ottimizzare i costi nell'inferenza, con la potenziale capacità di offrire un miglioramento prestazionale di un ordine di grandezza, potenzialmente dieci volte superiore. L'integrazione di questa filosofia SRAM-first potrebbe confluire nell'architettura Vera Rubin di Nvidia, prevista per il 2026, per affrontare i colli di bottiglia di latenza riscontrati dalle GPU attuali nei carichi di lavoro di inferenza in tempo reale. La capacità di Groq di fornire latenze estremamente basse, con velocità di generazione di testo che superano i 500-750 token al secondo su modelli come Llama-2-70B, la rendeva un'alternativa rilevante per applicazioni come agenti autonomi e traduzione dal vivo.

L'accordo, che include l'assorbimento di talenti chiave come Jonathan Ross e Sunny Madra da parte di Nvidia, riflette la tendenza dell'acqui-hire nella Silicon Valley, dove l'acquisizione di proprietà intellettuale è affiancata dal trasferimento di personale specializzato, un modello già osservato negli accordi tra Google e Character.AI o Microsoft e Inflection AI nel 2024. Nonostante l'operazione, Groq continuerà a gestire la sua piattaforma GroqCloud, che supporta applicazioni per oltre due milioni di sviluppatori, garantendo la continuità operativa per la clientela esistente. L'attenzione del mercato si sta progressivamente spostando verso l'inferenza, con Barclays che stima che entro il 2026 questa attività rappresenterà oltre il 70% delle esigenze di calcolo dell'IA generale.

NVIDIA