Gemini 2.5 Computer Use: L'IA de Google Maîtrise l'Interface Numérique avec une Latence Réduite

Édité par : Veronika Radoslavskaya

L'écosystème numérique connaît une évolution majeure avec l'annonce par Google, le 7 octobre 2025, du modèle Gemini 2.5 Computer Use. Cette innovation, développée par Google DeepMind, marque un progrès significatif dans la capacité des intelligences artificielles à interagir avec les environnements graphiques des utilisateurs. Le modèle ne se contente plus de traiter des données structurées; il perçoit et agit directement sur ce que l'utilisateur voit à l'écran, imitant ainsi les actions humaines telles que cliquer, saisir du texte ou naviguer dans une application.

Ce modèle spécialisé s'appuie sur les capacités de raisonnement et de compréhension visuelle de Gemini 2.5 Pro. Son fonctionnement repose sur une boucle itérative: réception de la requête, analyse d'une capture d'écran, génération d'une action sur l'interface utilisateur (UI), exécution de cette action, puis répétition du cycle jusqu'à l'achèvement de la tâche. Cette méthode permet de pallier les limitations rencontrées avec les interfaces de programmation d'applications (API) conventionnelles, offrant une automatisation plus fluide et contextuelle.

Les premières évaluations positionnent Gemini 2.5 Computer Use en tête de ses concurrents sur plusieurs bancs d'essai de contrôle web et mobile, notamment Online-Mind2Web, WebVoyager et AndroidWorld. Un facteur clé de cette performance est sa latence réduite. Selon les estimations, il surpasse Claude Sonnet 4.5 dans certains tests.

L'accès à cette technologie est désormais ouvert aux développeurs via l'API Gemini, disponible dans Google AI Studio et Vertex AI. Au sein de Google, le modèle est déjà utilisé, par exemple, pour le test d'interfaces, où il est capable de récupérer jusqu'à 70 % des échecs lors des exécutions de tests. Cette mise à disposition en aperçu public ouvre la voie à l'automatisation de tâches complexes, allant de la gestion de données numériques désordonnées à la création d'assistants personnels sophistiqués. Google DeepMind a également intégré des dispositifs de sûreté dès la conception, incluant des vérifications à chaque étape et la possibilité pour le modèle de demander une confirmation de l'utilisateur pour les actions jugées sensibles, afin d'assurer une autonomie numérique maîtrisée.

Sources

  • El Español

  • Introducing the Gemini 2.5 Computer Use model

  • Google's AI can now surf the web for you, click on buttons, and fill out forms with Gemini 2.5 Computer Use

  • Google announces Gemini 2.5 Computer Use AI model that can control web browsers like humans do

Avez-vous trouvé une erreur ou une inexactitude ?

Nous étudierons vos commentaires dans les plus brefs délais.