Microsoft Research a dévoilé Magma, un modèle de base d'IA intégré qui combine le traitement visuel et linguistique pour contrôler les interfaces logicielles et les systèmes robotiques. Contrairement aux systèmes d'IA précédents qui nécessitent des modèles distincts pour la perception et le contrôle, Magma intègre ces capacités dans un modèle de base unique. Microsoft positionne Magma comme un pas vers l'IA agentique, lui permettant de planifier et d'exécuter de manière autonome des tâches complexes. Magma s'appuie sur la technologie LLM basée sur les transformateurs, intégrant l'intelligence spatiale grâce à la formation avec des images, des vidéos, des données robotiques et des interactions UI. Cela permet à Magma d'agir comme un agent véritablement multimodal, capable de naviguer dans les interfaces utilisateur et de manipuler des objets physiques en fonction des objectifs définis par l'utilisateur.
Magma de Microsoft : Un modèle d'IA unifié pour l'interaction numérique et physique
Édité par : Veronika Radoslavskaya
Lisez plus d’actualités sur ce sujet :
Avez-vous trouvé une erreur ou une inexactitude ?
Nous étudierons vos commentaires dans les plus brefs délais.