Microsoft Research hat Magma vorgestellt, ein integriertes KI-Basismodell, das visuelle und sprachliche Verarbeitung kombiniert, um Softwareschnittstellen und Robotersysteme zu steuern. Im Gegensatz zu früheren KI-Systemen, die separate Modelle für Wahrnehmung und Steuerung benötigen, integriert Magma diese Fähigkeiten in ein einziges Basismodell. Microsoft positioniert Magma als einen Schritt in Richtung agentischer KI, der es ermöglicht, komplexe Aufgaben autonom zu planen und auszuführen. Magma baut auf transformatorbasierter LLM-Technologie auf und integriert räumliche Intelligenz durch Training mit Bildern, Videos, Robotikdaten und UI-Interaktionen. Dadurch kann Magma als ein wirklich multimodaler Agent agieren, der in der Lage ist, Benutzeroberflächen zu navigieren und physische Objekte basierend auf benutzerdefinierten Zielen zu manipulieren.
Microsofts Magma: Ein vereinheitlichtes KI-Modell für digitale und physische Interaktion
Bearbeitet von: Veronika Radoslavskaya
Weitere Nachrichten zu diesem Thema lesen:
Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?
Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.