マイクロソフトリサーチは、ソフトウェアインターフェースとロボットシステムを制御するために、視覚処理と言語処理を組み合わせた統合AI基盤モデルであるMagmaを発表しました。知覚と制御に別々のモデルを必要とする以前のAIシステムとは異なり、Magmaはこれらの機能を単一の基本モデルに統合します。マイクロソフトは、MagmaをエージェントAIへの一歩と位置づけ、複雑なタスクを自律的に計画および実行できるようにします。Magmaは、画像、ビデオ、ロボット工学データ、およびUIインタラクションを使用したトレーニングを通じて空間インテリジェンスを組み込んだ、トランスフォーマーベースのLLMテクノロジー上に構築されています。これにより、Magmaは、ユーザー定義の目標に基づいてユーザーインターフェースをナビゲートし、物理オブジェクトを操作できる、真にマルチモーダルなエージェントとして機能できます。
マイクロソフトのMagma:デジタルおよび物理的なインタラクションのための統合AIモデル
編集者: Veronika Radoslavskaya
このトピックに関するさらに多くのニュースを読む:
エラーや不正確な情報を見つけましたか?
できるだけ早くコメントを考慮します。