李飞飞谢赛宁再发新扫尾:
奏凯把 o1 式念念考拉至下一个 level ——多模态诳言语模子的空间念念维!
这项商量系统评估了多模态大模子的视觉空间智能,扫尾发现:
现时,即使是起先进的多模态大模子,在空间融会方面与东说念主类比拟仍有显赫差距,测试中约71% 的造作都源于空间推理方面的症结,即空间推贤慧商是现时主要瓶颈。
更为意旨的是,在这种情况下,念念维链、念念维树等常用的话语教导技巧奏凯失灵了——
不仅莫得晋升模子在空间任务上的进展,反而会使性能下跌。
而在问答经过中明确生成融会舆图则会增强多模态大模子的空间距离智商。
这项责任声势特殊豪华,合文章者中不仅有李飞飞,还有纽约大学算计机科学助理老师、CV 大牛谢赛宁。
而剩下的四位作家,一齐共归拢作。
这项商量眩惑了不少网友的温暖,大伙儿一边看论文,一边已迫不足待搓搓手期待 2025 年的新进展。
多模态大模子的空间念念维
天然现时多模态诳言语模子在话语联接和一般视觉任务上取得了显赫进展,但在空间融会和联接方面的智商仍未得到充分商量。
反不雅东说念主类,靠近情态旋转测试、挑选居品这些任务时,会同期依赖于空间和视觉念念考。
多模态诳言语模子能否"进行空间念念考"?能否构建一个准确的、隐式的"融会舆图"来匡助它们修起商量空间的问题?使用多模态诳言语模子来增强空间智能的上风和局限性是什么?
为了探索这些问题,团队商量了视觉空间智能。
作家讲解,之是以在"空间智能"前加上"视觉"一词,是因为空间智能不受感官样式截止,比如盲东说念主也可以通过别的感官感知空间,而该商量专注于视频输入,是以盘问视觉空间智能。
VSI-Bench 视觉空间智能基准测试集
起先团队苛刻了一个名为VSI-Bench的基准测试集。
基于之前的算计机视觉责任,团队重新哄骗现存的空间扫描视频(起先用于 3D 重建)偏激竟然标注来自动生成视觉问答(VQA)问题。
具体来说,这个测试集基于 ScanNet、ScanNet++ 和 ARKitScenes 等数据相聚的 288 个竟然室内场景视频,包括住宅、办公室、实际室等各式环境。
团队打算了超5000 个问答对,将评测任务分为三大类:
建树型任务:物体计数、相对距离、相对标的、门路运筹帷幄
测量意想:物体尺寸、房间大小、皆备距离
时空任务:物体出现法例等
并禁受东说念主工审核确保数据质地,搁置歧义和造作标注。
随后,他们全面评估了15 种救济视频的多模态诳言语模子,开源、闭源的都有。
扫尾,东说念主类在 VSI-Bench 上的平均准确率达到 79%,在建树型和时空任务上准确率更高,处于 94%-100% 之间。
比拟之下,进展最佳的闭源模子是Gemini-1.5 Pro,平均准确率为 48.8%,开源模子 LLaVA-NeXT-Video-72B 和 LLaVA-OneVision-72B 与之邻近。
在需要精准意想皆备距离 / 大小的三个测量任务上,大模子和东说念主类进展差距相对较小。
团队还进一步证明了视频输入对模子性能的弥留性,盲测实际中,在皆备距离意想等特定任务上,即使是起先进的模子也难以超过当场基线的进展。
话语视觉两个层面分析模子念念维经过
为了深切联接模子的融会机制,团队又从话语和视觉两个层面分析了模子的念念维经过。
在话语层面,通过让模子进行自我讲解,发现它们确乎具备可以的视频联接和话语推贤慧商。
但详备的造作分析自大,超 70% 的造作源于其空间推贤慧商的不足。
接着,团队用常用的话语教导技巧改革,包括念念维链、念念维树、自洽性。
扫尾不仅莫得晋升模子在空间任务上的进展,反而导致了性能下跌,也等于说耿介的话语推理技巧难以管束空间融会问题。
在视觉层面,他们又使用融会舆图来分析模子的空间记念智商。
扫尾自大,模子在联接局部空间商量时进展较好,相邻物体位置商量的准确率达到 64%。但跟着物体之间距离的加多,模子的空间商量联接智商显赫下跌。
这说明模子倾向于耕种局部空间模子,而不是变成齐备的全局空间联接。
不外,他们商量了一种新念念路:
使用融会舆图扶持空间推理。
加入这种机制,模子在相对距离任务上的准确率晋升了 10 个百分点,这为晋升模子空间智能提供了一个潜在的管束标的。
李飞飞谢赛宁领衔,四位共归拢作
论文也曾公布,几位作家就心扉当起了自个儿的首批自来水(doge)。
谢赛宁示意:
视频联接是下一个前沿限度,但并非通盘视频都是疏通的。
这项商量探索了多模态诳言语模子怎样不雅察、记念和回忆空间。
" AI 教母"李飞飞也转发开麦:
这是东说念主类智能中极为弥留的一个方面,2025 年还有更多值得期待,鼓吹空间智能的鸿沟!
这项商量共归拢作有四位,正如李飞飞老师显现,多位都是谢赛宁的学生。
Jihan Yang
Jihan Yang 是纽约大学 Courant 商量所博士后商量员,导师是谢赛宁。在此之前,Jihan Yang 于香港大学得到了博士学位,中山大学得到了学士学位。
他的商量意思意思相聚在机器学习和算计机视觉限度,突出温暖多模态和具身智能。
Shusheng Yang
Shusheng Yang 当今是纽约大学博士生。
领英自大,他是华中科技大学学友,也曾在阿里和腾讯有过责任阅历。
Anjali Gupta
Anjali Gupta 是纽约大学 Courant 商量所博士生,导师是谢赛宁老师。
她的商量限度是机器学习和算计机视觉,突出是以视觉为中心的多模态诳言语模子。
Rilyn Han
Rilyn Han 来自耶鲁大学,主修算计机科学和经济学,商量主要温暖探索多模态诳言语模子的智商。
论文衔接:https://arxiv.org/pdf/2412.14171
表情主页:https://vision-x-nyu.github.io/thinking-in-space.github.io/
参考衔接:
[ 1 ] https://x.com/sainingxie/status/1870877202595958791
[ 2 ] https://x.com/drfeifei/status/1870881981703291097
[ 3 ] https://vision-x-nyu.github.io/thinking-in-space.github.io/
— 完 —
点这里� � 温暖我,铭记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日再见 ~
Powered by 尊龙凯时人生就是博·(中国)官方网站 @2013-2022 RSS地图 HTML地图