Gemini 2.5 Computer Use: L'IA de Google Maîtrise l'Interface Numérique avec une Latence Réduite

11:23, 09 octobre

Édité par : Veronika Radoslavskaya

L'écosystème numérique connaît une évolution majeure avec l'annonce par Google, le 7 octobre 2025, du modèle Gemini 2.5 Computer Use. Cette innovation, développée par Google DeepMind, marque un progrès significatif dans la capacité des intelligences artificielles à interagir avec les environnements graphiques des utilisateurs. Le modèle ne se contente plus de traiter des données structurées; il perçoit et agit directement sur ce que l'utilisateur voit à l'écran, imitant ainsi les actions humaines telles que cliquer, saisir du texte ou naviguer dans une application.

Ce modèle spécialisé s'appuie sur les capacités de raisonnement et de compréhension visuelle de Gemini 2.5 Pro. Son fonctionnement repose sur une boucle itérative: réception de la requête, analyse d'une capture d'écran, génération d'une action sur l'interface utilisateur (UI), exécution de cette action, puis répétition du cycle jusqu'à l'achèvement de la tâche. Cette méthode permet de pallier les limitations rencontrées avec les interfaces de programmation d'applications (API) conventionnelles, offrant une automatisation plus fluide et contextuelle.

Les premières évaluations positionnent Gemini 2.5 Computer Use en tête de ses concurrents sur plusieurs bancs d'essai de contrôle web et mobile, notamment Online-Mind2Web, WebVoyager et AndroidWorld. Un facteur clé de cette performance est sa latence réduite. Selon les estimations, il surpasse Claude Sonnet 4.5 dans certains tests.

L'accès à cette technologie est désormais ouvert aux développeurs via l'API Gemini, disponible dans Google AI Studio et Vertex AI. Au sein de Google, le modèle est déjà utilisé, par exemple, pour le test d'interfaces, où il est capable de récupérer jusqu'à 70 % des échecs lors des exécutions de tests. Cette mise à disposition en aperçu public ouvre la voie à l'automatisation de tâches complexes, allant de la gestion de données numériques désordonnées à la création d'assistants personnels sophistiqués. Google DeepMind a également intégré des dispositifs de sûreté dès la conception, incluant des vérifications à chaque étape et la possibilité pour le modèle de demander une confirmation de l'utilisateur pour les actions jugées sensibles, afin d'assurer une autonomie numérique maîtrisée.

Sources

El Español
Introducing the Gemini 2.5 Computer Use model
Google's AI can now surf the web for you, click on buttons, and fill out forms with Gemini 2.5 Computer Use
Google announces Gemini 2.5 Computer Use AI model that can control web browsers like humans do

Lisez plus d’actualités sur ce sujet :

19 octobre

Changement de Paradigme de l'Information: Baisse du Trafic Humain sur Wikipédia Face à l'Essor de l'IA et des Réseaux Sociaux

13 octobre

Mise à jour majeure de Telegram : l'esthétique « Liquid Glass » et l'essor de l'interaction intelligente

07 octobre

ChatGPT devient une plateforme: intégration transparente d'applications tierces

Avez-vous trouvé une erreur ou une inexactitude ?

Nous étudierons vos commentaires dans les plus brefs délais.

Centre de notifications

Centre de notifications

Gemini 2.5 Computer Use: L'IA de Google Maîtrise l'Interface Numérique avec une Latence Réduite

Sources

Lisez plus d’actualités sur ce sujet :