微软研究院推出了Magma,这是一种集成的AI基础模型,它结合了视觉和语言处理来控制软件界面和机器人系统。与以前需要单独的模型进行感知和控制的AI系统不同,Magma将这些功能集成到单个基本模型中。微软将Magma定位为迈向代理AI的一步,使其能够自主地计划和执行复杂的任务。Magma建立在基于Transformer的LLM技术之上,通过图像、视频、机器人数据和UI交互的训练,整合了空间智能。这使得Magma能够充当真正的多模式代理,能够根据用户定义的目标导航用户界面和操作物理对象。
微软Magma:用于数字和物理交互的统一AI模型
编辑者: Veronika Radoslavskaya
你发现了错误或不准确的地方吗?
我们会尽快考虑您的意见。