读万卷书,大模型「看」懂视觉世界?Meta揭秘LLM视觉先验的起源
![]()
一个只见过文本的读万卷书大语言模型(LLM),在从未直接看过图像的大模懂视的起情况下,竟然能学到可迁移到视觉任务的型看先验潮州市某某生物科技厂先验能力 —— 这是 Meta Superintelligence Labs 与牛津团队新论文的发现。
近日,觉世界Ma揭Meta 超级智能实验室(Meta Superintelligence Labs)与牛津大学的视觉研究者发布了一篇长达 33 页的重磅论文,通过超过 100 组受控实验、读万卷书耗费 50 万 GPU 小时的大模懂视的起庞大研究,系统性地揭开了 LLM 视觉先验的型看先验来源。 作者提出,觉世界Ma揭视觉先验可分为「推理先验」和「感知先验」,视觉并给出了一套预训练的读万卷书数据混合配方,用于在只用文本预训练阶段就「播下」视觉能力的大模懂视的起种子。
这项研究不仅解释了 LLM 无师自通学会看的型看先验秘密,更提出了一套预训练的觉世界Ma揭数据配方,旨在从语言预训练阶段就有意地培养模型的视觉潮州市某某生物科技厂视觉能力,为下一代更强大的多模态大模型铺平道路。
![]()
- 论文标题:Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training
- 论文链接:https://arxiv.org/pdf/2509.26625
- 项目地址:
- https://junlinhan.github.io/projects/lsbs/
核心洞察:LLM 视觉先验并非铁板一块,源于两种独立的「先验知识」
研究最重要的发现是,LLM 从语言中获得的「视觉先验」(Visual Priors)并非单一的能力,而是可以分解为两种来源和特性截然不同的部分:
- 推理先验 (Reasoning Prior):一种更抽象、跨模态的通用能力。它主要通过预训练以推理为中心的数据(如代码、数学、学术论文)来获得。就像人类通过学习逻辑和数学来构建推理框架一样,LLM 通过学习这些结构化文本,掌握了可迁移的、普适的推理能力,这种能力可以直接应用于解决复杂的视觉问题。
- 感知先验 (Perception Prior):这更侧重于对具体视觉概念的认知,比如识别物体的颜色、形状和名称。这种能力并非来自某一特定类型的数据,而是从广泛、多样的通用语料(如网页抓取)中「弥散式」地浮现出来。多模态大模型的感知能力对视觉指令微调和所选用的视觉编码器更为敏感。
关键发现:少量视觉描述就够,海量推理数据是关键
![]()
大量实验:系统性揭秘 LLM 的视觉先验
团队进行了一系列精巧的实验,实验采用常见的 adapter-style 多模态适配流程 —— 先在只读文本的基础上预训练多种解码器式 LLM(沿用 Llama-3 风格架构,模型尺度从 340M 到 13B 不等,核心对比以 3B/7B 模型 为主),然后用同样的「视觉对齐 + 监督微调」的两阶段流程把视觉能力接入来衡量视觉先验,得出了 6 个结论并引入 3 个假设,这里节选:
- 能力的起源有迹可循:通过对 16 种不同单一数据源的独立训练,研究发现,在「代码」「数学」和「学术」数据上训练的模型,在需要抽象推理的视觉任务(Vision-Centric VQA)上表现最好。
![]()
- 推理数据多多益善,视觉数据很快饱和:实验表明,在预训练数据中,不断增加推理密集型文本(如代码)的比例,模型的下游视觉推理能力会持续、显著地提升,直到占比达到 75% 左右。与此形成鲜明对比的是,描述视觉世界的文本(如描述颜色、形状、位置的文字)虽然重要,但其效果会迅速饱和。只需一小部分这类数据为模型打下基础,再多就收效甚微了。
![]()
- 推理能力是通用的,感知能力更依赖「后天」:研究进一步证实,「推理先验」是独立于视觉编码器的通用能力。无论后期与哪种视觉模块结合,只要 LLM 在预训练阶段学到了强大的推理能力,其多模态系统的推理表现都会相应提升。而「感知先验」则不同,它更依赖于后期的视觉微调数据和视觉编码器本身的特性。
![]()
简单来说,想要让一个 LLM 拥有强大的视觉潜力,关键不是给它读无数遍「天空是蓝色的」,而是让它通过解数学题、读代码来把「脑子」练聪明。
从理论到实践:一份增强视觉先验的数据预训练配方
基于以上发现,研究团队的目标从「解释现象」转向了「主动创造」。他们通过系统的实验,最终调配出了一套最优的数据混合方案,旨在平衡模型的语言能力和视觉潜力。
实验结果表明,通过采用这种富含推理内容、同时配有适量视觉世界知识的「平衡配方」(Balanced model),训练出的 7B 模型在语言能力上与专门优化语言任务的预训配方训练的模型达到了更优,同时在所有视觉基准测试中都实现了全面超越。
这证明了,通过精心设计文本预训练数据,我们可以「未卜先知」地为模型注入强大的视觉先验。
![]()
意义与展望
这项研究的意义深远,它将多模态模型能力的培养,从依赖下游微调提前到了语言预训练阶段。
它展示了,核心的推理能力是一种可迁移、与模态无关的基石。这为「柏拉图表征假说」(Platonic Representation Hypothesis)提供了有力的经验支持 —— 即文本和图像只是现实世界在不同模态下的「投影」,一个足够强大的模型可以仅从一种投影中,学习到这个世界的统一内在结构。
未来,LLM 的预训练将不再仅仅是单模态的事。模型设计者从一开始就可以考虑其未来的多模态应用,通过在预训练阶段「播下视觉的种子」,来构建一个更强大的跨模态智能基础。
更多技术细节和实验分析,请参阅原论文。
作者介绍
韩俊霖(Junlin Han)是这篇论文的第一作者兼项目负责人。他目前是 Meta 超级智能实验室的研究员,同时也是牛津大学 Torr Vision Group 的博士生,师从 Philip Torr 教授。他的研究兴趣聚焦多模态智能系统,先后在跨模态数据生成、3D 生成模型等领域开展研究。此前,他以一等荣誉毕业于澳大利亚国立大学,曾在顶级会议多次发表重要研究成果并组织研讨会。
文章第二作者 Peter Tong(童晟邦 / Shengbang Tong),目前是纽约大学 Courant 计算机科学系的博士生,导师包括 Yann LeCun 和 Saining Xie。他曾在伯克利人工智能实验室 (BAIR) 进行本科研究,师从马毅教授。研究方向包括世界模型 (world model)、无监督 / 自监督学习、生成模型与多模态模型。他曾获得了 OpenAI Superalignment Fellowship 和 Meta 的博士项目资助。
第三作者 David Fan现任 Meta FAIR 的高级研究工程师。他的研究方向集中在多模态表征学习、视频理解 / 自监督学习等领域。 在加入 FAIR 之前,他曾在 Amazon Prime Video 担任 Applied Research Scientist,参与视觉 - 语言 - 音频融合模型、视频理解和推荐系统等真实产品项目。他于普林斯顿大学获得计算机科学学位。
(责任编辑:热点)
-
走在街上不难发现,真正有品味的中年女人,从不用夸张款式或昂贵品牌证明自己,反而靠几个实用又好上手的搭配技巧,把日常穿得优雅又自在。这些技巧不挑身材、不挑场合,学会了就能直接用,看看你已经掌握了几个?第
...[详细]
-
【编者按】2024年,中国体育即将直面巴黎奥运会。4月17日,巴黎奥运会进入倒计时100天的节点。在周围强敌环伺的背景下,中国各项运动该如何突围?我们有哪些自己的优势,我们近来的大赛战绩如何,对手实力
...[详细]
-
据新华社耶路撒冷6月18日电 以色列军方18日说,对黎巴嫩发动进攻的作战计划已获批准。 以军方18日在一份声明中说,为应对以黎边境紧张局势,以国防军北方司令部司令戈尔丁和行动局局长巴西乌克批准了
...[详细]
-
赛季末德国转会市场陆续更新各大联赛球员身价,目前英超、德甲球员身价已经更新,31岁的孙兴慜和27岁的金玟哉身价均下跌至4500万欧,22岁的久保健英以6000万欧的身价占据“亚洲一哥”的位置。久保健英
...[详细]
-
北京进深 徐迪好房子新规出台一年多,“南阳台+北设备平台”几乎已成北京楼市标配。然而,海淀仍然没有新盘配置开敞阳台,但也正向着外扩边界试探。目前海淀在售新盘中,共有3个项目做了“一步阳台”,分别是:建
...[详细]
-
中医认为,脾胃为“后天之本”,而夏天既是脾胃最脆弱的时候,又是养脾胃的最佳时机。天津中医药大学附属保康医院主任医师韩娟在接受采访时,推荐了几款具有调理脾胃功能的养生茶,帮助大家养护脾胃。行气解郁、和胃
...[详细]
-
版权声明:本文版权为网易汽车所有,转载请注明出处。网易汽车6月17日报道第8代BMW 5一经亮相,便引起了广泛的讨论和争议,尤其在设计方面更是成为热议的焦点。作为一款备受瞩目的中大型豪华轿车,BMW
...[详细]
-
版权声明:本文版权为网易汽车所有,转载请注明出处。网易汽车6月17日报道第8代BMW 5一经亮相,便引起了广泛的讨论和争议,尤其在设计方面更是成为热议的焦点。作为一款备受瞩目的中大型豪华轿车,BMW
...[详细]
-
姐妹们!最近真的好多朋友去旅游!只是...出游玩人一多,拍出的照片不是人挤人的游客照,就是脸蛋看着黑乎乎的丑照。左@Althealsyy 右@我是大哥啊我就疑惑小红薯美女们无时无刻精致到发丝的照片是怎
...[详细]
-
国内留学生的选校思维其实是比较单一的,冲排名就完事了。没有那么多花里胡哨的。当然,这很符合国内就业形势,本身主流意识没啥毛病,只是大家都求同,会葬送一些学生的个性和创意能力。有利有弊吧,毕竟人都是不一
...[详细]

竞彩欧洲杯|克罗地亚迎反弹,匈牙利力拼德国
不只有山水之美!千里江山图藏着人间烟火
张思南:重申“敌国条款”,为痛打日本奠定法理基础