Google DeepMind Intègre la Vision Agentique dans Gemini 3 Flash pour un Raisonnement Visuel Itératif
Édité par : gaya ❤️ one
Google DeepMind a récemment implémenté une modification architecturale significative dans son modèle d'intelligence artificielle, Gemini 3 Flash, baptisée Agentic Vision. Cette mise à jour modifie fondamentalement le traitement des données visuelles, faisant évoluer la compréhension d'une analyse statique unique vers une investigation active et outillée. Les modèles multimodaux précédents, y compris les versions antérieures de Gemini, traitaient les images en une seule étape, ce qui générait des erreurs notables lors de la détection de détails fins, tels que des numéros de série ou des symboles discrets, les obligeant à spéculer en cas d'ambiguïté visuelle.
L'Agentic Vision est conçu pour pallier cette contrainte en ancrant la compréhension dans des preuves visuelles vérifiables par l'exécution de code Python. Le mécanisme central de cette innovation repose sur l'adoption d'une boucle structurée désignée par « Penser, Agir, Observer ». Durant la phase de Réflexion (Think), le modèle élabore un plan d'action séquentiel après analyse de la requête de l'utilisateur et de l'image initiale. L'étape d'Action (Act) implique la génération et l'exécution de code Python pour affiner les preuves visuelles, notamment par des opérations de recadrage, de rotation ou d'annotation de l'image.
L'étape finale, l'Observation (Observe), consiste à intégrer le résultat transformé dans la fenêtre contextuelle du modèle afin de formuler une réponse finale mieux étayée. Un exemple d'application est la capacité du modèle à déterminer implicitement la nécessité de zoomer sur des zones spécifiques d'une image à haute résolution. L'intégration de l'exécution de code comme étape active dans le processus de raisonnement visuel a des répercussions directes sur la performance. Google DeepMind a indiqué que l'activation de cette capacité d'exécution de code avec Gemini 3 Flash entraîne une amélioration constante de la qualité de 5 à 10 % sur la majorité des bancs d'essai de vision.
Des entités comme PlanCheckSolver.com, une startup spécialisée dans la planification de construction, ont déjà tiré parti de cette méthode d'inspection itérative pour valider la conformité de plans d'ingénierie haute résolution, rapportant des gains de précision allant jusqu'à 5 %. Cette nouvelle méthodologie permet également de diminuer les hallucinations dans les tâches d'arithmétique ou de comptage impliquant plusieurs étapes, en utilisant un « bloc-notes visuel ». Par exemple, pour dénombrer les doigts sur une main dans l'application Gemini, le modèle utilise Python pour générer des boîtes englobantes et des étiquettes numériques sur chaque doigt identifié, assurant ainsi une réponse basée sur une compréhension précise au niveau du pixel.
La fonctionnalité Agentic Vision est actuellement disponible pour les développeurs via l'API Gemini sur des plateformes telles que Google AI Studio et Vertex AI, la plateforme unifiée de Google pour le développement d'applications d'IA générative. Un déploiement progressif est également en cours au sein de l'application Gemini, où les utilisateurs peuvent choisir le modèle « Thinking ». Bien que Gemini 3 Flash maintienne la base de connaissances et le raisonnement de niveau Pro avec une latence et un coût de type Flash, certaines fonctions avancées, comme la rotation automatique d'images ou les calculs visuels complexes, nécessitent encore une instruction explicite de l'utilisateur. Google a annoncé des mises à jour futures pour automatiser davantage ces actions. Cette évolution vers une investigation visuelle active, rendue possible par l'exécution de code, représente une avancée notable dans l'interaction des modèles d'IA avec les données du monde réel, ouvrant des perspectives pour des applications plus sophistiquées en robotique et en analyse de données complexes.
2 Vues
Sources
MarkTechPost
Edge AI and Vision Alliance
The Keyword
r/singularity - Reddit
The Neuron
PlanCheckSolver
Lisez plus d’actualités sur ce sujet :
Avez-vous trouvé une erreur ou une inexactitude ?Nous étudierons vos commentaires dans les plus brefs délais.