
机器东说念主前瞻 2 月 21 日报说念开云(中国)Kaiyun·官方网站 - 登录入口,近日,微软扣问院发布了一个多模态 AI 模子—— Magma。Magma 是首个八成在其所处环境中相识多模态输入并将其与本体情况相联系的基础模子,惟有提供一个描述性预备,Magma 就八成制定预备、扩充行径以完毕该预备。
Magma 以视觉言语(VL)模子为基础,除了保遗留统的言语和视觉的相识智商(言语智能)外,还解锁了空间智能的新妙技,八成从多模态输入(用户界面截图、机器东说念主图像、素养视频)中相识对象的物理位置、手脚的时序逻辑,并在不同环境(数字界面与物理宇宙)中完成连贯的任务。
值得一提的是,论文的作家中,13 位有 12 位应该是华东说念主。中好意思 AI、机器东说念主竞赛的背后,果真照旧在好意思华东说念主和在华中国东说念主之间的较量。

Magma 聘请了深度学习架构和大范围预践诺相纠合的要津,该模子使用 ConvNeXt-XXL 视觉主干处理图像和视频,同期使用 LLaMA-3-8B 言语模子处理文本输入。
Magma 是通过一个包含 3900 万个样本的各样化数据集进行践诺的,其中包括图像、视频和机器东说念主手脚轨迹。
这个模子还改进聘请了两项技能 : "可秀雅集"(Set-of-Mark,SoM)和 "轨迹秀雅" ( Trace-of-Mark,ToM ) 。前者使模子八成秀雅 UI 环境中的可操作视觉对象,后者则使其八成跟踪物体随时代的出动,普及将来行径的权术智商。

扣问团队对包括 ChatGPT 在内的多个模子进行了零样本评估,成果表现,过程预践诺的 Magma 模子在未进行任何特定领域微调情况下,是惟逐个款八成扩充全范围任务的模子。

将 Magma 和 OpenVLA 这两个模子欺诈到 WidowX 机械臂上,当让机械臂拼装桌面上的热狗模子、把蘑菇模子放到盆中、把桌子上的抹布从左边出动至右边时,Magma 可以让机械臂比拟精准地完成任务,而 OpenVLA 则在物体捏取、出动上发达略失容于前者。
Magma 欺诈到 WidowX 机械臂并过程少样本的微调后,在分袂内和分袂外泛化任务中,王人有着可靠的性能发达。



在 LIBERO 平台上进行的少样本微调,Magma 在统统任务组中王人赢得了更高的平均奏遵守。

在 Google Robots 和 Bridge 上进行的零样本评估中,Magma 模子也展现出了较强的零样本跨域鲁棒性,并在捏取多种不同物品等跨实体操作模拟任务中赢得了可以收获。

处理一些比拟有挑战性的空间推理繁难时,天然 Magma 的预践诺数据比 GPT-4o 少得多,可是也可以准确地进行恢复。


针对多模态相识方面,Magma 的发达以至越过了 Video-Llama2 和 ShareGPT4Video。比如,当给 Magma 提供一段视频时,看到有东说念主提起茶包,它能秒猜下一步要倒开水沏茶。

Magma 奏效整合了视觉、言语和行径开云(中国)Kaiyun·官方网站 - 登录入口,在机器东说念主任务操作上发达出了较高的泛化智商。将来,跟着模子扣问的不休深切及模子范围的彭胀,Magma 也有望为贬责更复杂的机器东说念主操作问题提供可以的贬责决策,让机器东说念主距离信得过的落地欺诈更进一步。
