Google DeepMind Intègre la Vision Agentique dans Gemini 3 Flash pour un Raisonnement Visuel Itératif

20:50, 04 février

Édité par : gaya ❤️ one

Google DeepMind a récemment implémenté une modification architecturale significative dans son modèle d'intelligence artificielle, Gemini 3 Flash, baptisée Agentic Vision. Cette mise à jour modifie fondamentalement le traitement des données visuelles, faisant évoluer la compréhension d'une analyse statique unique vers une investigation active et outillée. Les modèles multimodaux précédents, y compris les versions antérieures de Gemini, traitaient les images en une seule étape, ce qui générait des erreurs notables lors de la détection de détails fins, tels que des numéros de série ou des symboles discrets, les obligeant à spéculer en cas d'ambiguïté visuelle.

L'Agentic Vision est conçu pour pallier cette contrainte en ancrant la compréhension dans des preuves visuelles vérifiables par l'exécution de code Python. Le mécanisme central de cette innovation repose sur l'adoption d'une boucle structurée désignée par « Penser, Agir, Observer ». Durant la phase de Réflexion (Think), le modèle élabore un plan d'action séquentiel après analyse de la requête de l'utilisateur et de l'image initiale. L'étape d'Action (Act) implique la génération et l'exécution de code Python pour affiner les preuves visuelles, notamment par des opérations de recadrage, de rotation ou d'annotation de l'image.

L'étape finale, l'Observation (Observe), consiste à intégrer le résultat transformé dans la fenêtre contextuelle du modèle afin de formuler une réponse finale mieux étayée. Un exemple d'application est la capacité du modèle à déterminer implicitement la nécessité de zoomer sur des zones spécifiques d'une image à haute résolution. L'intégration de l'exécution de code comme étape active dans le processus de raisonnement visuel a des répercussions directes sur la performance. Google DeepMind a indiqué que l'activation de cette capacité d'exécution de code avec Gemini 3 Flash entraîne une amélioration constante de la qualité de 5 à 10 % sur la majorité des bancs d'essai de vision.

Des entités comme PlanCheckSolver.com, une startup spécialisée dans la planification de construction, ont déjà tiré parti de cette méthode d'inspection itérative pour valider la conformité de plans d'ingénierie haute résolution, rapportant des gains de précision allant jusqu'à 5 %. Cette nouvelle méthodologie permet également de diminuer les hallucinations dans les tâches d'arithmétique ou de comptage impliquant plusieurs étapes, en utilisant un « bloc-notes visuel ». Par exemple, pour dénombrer les doigts sur une main dans l'application Gemini, le modèle utilise Python pour générer des boîtes englobantes et des étiquettes numériques sur chaque doigt identifié, assurant ainsi une réponse basée sur une compréhension précise au niveau du pixel.

La fonctionnalité Agentic Vision est actuellement disponible pour les développeurs via l'API Gemini sur des plateformes telles que Google AI Studio et Vertex AI, la plateforme unifiée de Google pour le développement d'applications d'IA générative. Un déploiement progressif est également en cours au sein de l'application Gemini, où les utilisateurs peuvent choisir le modèle « Thinking ». Bien que Gemini 3 Flash maintienne la base de connaissances et le raisonnement de niveau Pro avec une latence et un coût de type Flash, certaines fonctions avancées, comme la rotation automatique d'images ou les calculs visuels complexes, nécessitent encore une instruction explicite de l'utilisateur. Google a annoncé des mises à jour futures pour automatiser davantage ces actions. Cette évolution vers une investigation visuelle active, rendue possible par l'exécution de code, représente une avancée notable dans l'interaction des modèles d'IA avec les données du monde réel, ouvrant des perspectives pour des applications plus sophistiquées en robotique et en analyse de données complexes.

Google DeepMind

2 Vues

Sources

MarkTechPost
Edge AI and Vision Alliance
The Keyword
r/singularity - Reddit
The Neuron
PlanCheckSolver

Lisez plus d’actualités sur ce sujet :

04 février

Google officialise le Pixel 10A avec précommande le 18 février, axé sur l'intelligence artificielle

04 février

ElevenLabs atteint une valorisation de 11 milliards de dollars après un cycle de financement Série D mené par Sequoia Capital

04 février

Google réorganise l'interface de Gemini : une distinction claire entre outils stables et fonctionnalités expérimentales

Avez-vous trouvé une erreur ou une inexactitude ?Nous étudierons vos commentaires dans les plus brefs délais.