Google DeepMind Integra la Visione Agentica in Gemini 3 Flash per Comprensione Visiva Iterativa
Modificato da: gaya ❤️ one
Google DeepMind ha introdotto un aggiornamento significativo nelle capacità di comprensione delle immagini del suo modello Gemini 3 Flash, integrando una funzionalità denominata "Agentic Vision". Questa innovazione trasforma l'elaborazione visiva da un processo statico a un ciclo attivo e iterativo, impiegando l'esecuzione di codice Python per affinare l'analisi dei dettagli visivi minuti. L'introduzione di questa capacità, avvenuta all'inizio del 2026, mira a superare le limitazioni dei modelli multimodali precedenti, i quali spesso non riuscivano a interpretare dati visivi critici di piccole dimensioni, come numeri di serie o annotazioni sottili, a causa della loro elaborazione in un unico passaggio.
Il meccanismo centrale di Agentic Vision è strutturato attorno alla sequenza "Think, Act, Observe" (Pensa, Agisci, Osserva). In questa fase, il modello prima definisce una strategia in base alla richiesta e all'immagine (Think), successivamente esegue codice Python per manipolare attivamente l'evidenza visiva, ad esempio eseguendo zoom, ritagli o annotazioni (Act), e infine utilizza l'output trasformato per formulare una risposta finale basata sui dati visivi (Observe). Questa capacità di auto-correzione e raffinamento tramite l'esecuzione di codice Python rappresenta un progresso fondamentale nell'approccio dei modelli linguistici di grandi dimensioni ai compiti visivi.
La funzionalità è attualmente disponibile per gli sviluppatori attraverso le interfacce di programmazione dell'applicazione (API) di Gemini, accessibili su piattaforme come Google AI Studio e Vertex AI. Il team di Google DeepMind ha dichiarato che l'abilitazione dell'esecuzione di codice in Gemini 3 Flash produce un miglioramento costante della qualità compreso tra il 5% e il 10% nella maggior parte dei benchmark di visione. Un'applicazione pratica è stata riportata da PlanCheckSolver.com, una startup di pianificazione edilizia, che ha registrato un aumento di accuratezza fino al 5% nell'ispezione iterativa di planimetrie ad alta risoluzione per la conformità normativa. Inoltre, la capacità di eseguire calcoli matematici complessi tramite annotazione visiva e codice è stata evidenziata come un meccanismo per mitigare le allucinazioni nei compiti di matematica visiva.
L'integrazione di Agentic Vision ottimizza Gemini 3 Flash per carichi di lavoro di visione che richiedono elevata precisione, come la lettura di testo minuto o la convalida di diagrammi complessi. Sebbene l'implementazione automatica possa ingrandire dettagli troppo piccoli, altre manipolazioni, come la rotazione dell'immagine o calcoli visivi specifici, richiedono ancora un'istruzione esplicita nel prompt iniziale, come la richiesta di scrivere codice per contare elementi o raddrizzare un'immagine. Google ha espresso l'intenzione di espandere ulteriormente le capacità di Agentic Vision, prevedendo l'aggiunta di comportamenti guidati implicitamente dal codice e l'estensione della funzionalità ad altre dimensioni del modello oltre la variante Flash.
Questo sviluppo si inserisce nel contesto del 2026, dove Google DeepMind sta orientando i modelli multimodali verso una comprensione più profonda e la creazione di agenti IA più affidabili, in linea con le visioni del CEO Demis Hassabis. L'evoluzione verso agenti multimodali, capaci di integrare e sincronizzare dati da testo, immagini e audio, è vista come un cambiamento di paradigma che amplifica l'acume umano.
2 Visualizzazioni
Fonti
MarkTechPost
Edge AI and Vision Alliance
The Keyword
r/singularity - Reddit
The Neuron
PlanCheckSolver
Leggi altre notizie su questo argomento:
Hai trovato un errore o un'inaccuratezza?Esamineremo il tuo commento il prima possibile.