范式跃迁：智源定义世界模型时代，人工智能正式迈向物理世界

编辑：前沿在线编辑部

就在最近，北京中关村国际创新中心，第八届智源大会开幕式的主会场里，

一万多名参会者挤满了每一个角落，连过道都站满了人。

这是八年来智源大会参会人数最多的一届，也是整个 AI 行业最真实的温度计：当大模型进入产业落地的深水区，当参数竞赛的红利逐渐消退，所有人都在寻找下一个技术方向的答案。

被业内称为 “AI 春晚” 的智源大会，今年端上来最硬的一盘菜，就是世界模型。

智源研究院院长王仲远站在台上，用一句话为整个行业指明了方向：我们正在经历从 “预测下一个词元” 到 “预测下一个物理状态” 的重大范式变革，世界模型将成为与大语言模型并驾齐驱的下一代人工智能基座模型。

这不仅仅是一家研究机构的技术发布，更是为过去半年混乱的 “世界模型热” 完成了一次正本清源，为整个行业立起了一条通往物理世界通用人工智能的清晰路标。

给 AI 装上一套「物理引擎」

在此之前，大语言模型对现实世界的理解，本质上来自海量语言数据中的经验归纳，而不是对物理过程的真实模拟。

大语言模型可能知道 “推一下桌边的杯子，大概率会掉下来”，但并不意味着它明白重力、受力、惯性和空间关系是怎么回事。它能背出 “铁碗不能放进微波炉” 的常识，但真让机器人去操作，没有哪个大脑真正理解这个物理规则。

智源要做的，就是给 AI 装一套真正的「物理引擎」—— 给它一个动作，它来预测这个动作在真实世界里会产生什么后果。

这背后是智源研究院成立八年来一以贯之的定位：做高校做不了，企业不愿做的事。

高校有顶尖人才，但缺工程团队和计算资源；企业有资源，但必须考量商业回报。智源处在这两者中间，既敢押注 “通用世界模型” 这种短期内看不到商业回报的方向，也能用工程化团队把论文级的想法做到可开源、可部署。

过去八年，智源一次又一次证明了这条路的价值。

2020 年，当全行业还在观望大模型技术路线时，智源率先成立悟道研发团队；2021 年发布中国首个万亿参数大模型悟道 1.0，开启了中国大模型时代；2023年，当所有人都在扎堆做大语言模型时，智源把杨立昆请到智源大会讲世界模型，率先布局下一代技术；2024 年，智源明确提出 “大语言模型→多模态大模型→世界模型” 的技术演进路线。

今天，当全行业开始讨论世界模型时，智源已经拿出了完整的技术路线图和一系列重磅成果。

截至目前，智源开源模型超 200 个，全球总下载量累计超过 10 亿次。

八岁的智源大会：内行的盛会，行业的风向标

自 2019 年启幕以来，智源大会已连续成功举办八届，累计汇聚了 14 位图灵奖得主、过千位产学研顶尖专家，吸引全球 30 多个国家和地区、超 1000 万人次专业人士参与。

如果把过去几年 AI 的发展拉成一条时间线，会发现智源大会几乎踩中了每一个关键节点：首届大会讨论深度学习与基础模型，大模型浪潮爆发后聚焦预训练与多模态，再到今天，舞台中央已经变成了世界模型和智能体。

八年来，智源大会形成了自己独特的气质：技术硬核、国际视野、青年人才。业内人都知道，这是 “AI 内行的学术盛会”—— 没有太多花哨的营销，干货密度是所有行业大会里最高的。

本届大会最震撼的声音来自图灵奖得主 Whitfield Diffie。这位现代数字安全体系的奠基者，在演讲尾声给出了一个惊人预测：到 2050 年，机器智能将超越人类，成为世界运行的主宰。

Diffie 围绕 AI 安全提出了深刻的警示：当前依赖反馈控制的方法效果不佳，他主张形式化方法才是未来。他乐观地认为，未来 AI 将成为完成数学证明的工具，大幅提升系统可靠性。

另一位图灵奖得主、强化学习奠基人 Andrew Barto 则将强化学习归结为 “控制、搜索与联想记忆” 的三位一体。他强调深度强化学习与大脑奖励系统的最新成果相结合，将指引下一轮技术方向，最后也发出警示：小心你许的愿 —— 你可能真的会得到它，警惕奖励信号设计带来的 “反常实例化” 风险。

本届大会的嘉宾阵容创造了新纪录：8 位中外院士、30 余位 30 岁以下青年科学家、40 余位 AI 企业 CEO 和创始人、200 余位顶尖专家学者齐聚北京。Meta、英伟达、哈佛、MIT 等全球顶尖机构，与阿里、腾讯、小米、清华、北大、人大，以及智谱、面壁、生数等中国 AI 创新力量，在同一个平台上交流。

1 场主论坛，24 场平行论坛，200 余场演讲。

智能体论坛从去年的 1 场拓展至 3 场，还首次设立了全天候 “AI× 神经科学论坛”，汇聚 15 余位百亿估值具身智能 CEO 共商发展路径，并首创 “智能体听会” 功能，让观众借助数字分身并行参会。

报名最火爆的六场论坛分别是：开幕式暨全体大会、大模型产业论坛、AI 自进化、具身智能与人形机器人、终端智能体与 OpenClaw 以及世界模型。

今年还首次新增了 AI Native 教育论坛和 Token 经济与 OPC 论坛，分别探讨智能时代的教育变革与生产关系重构，覆盖前沿议题的广度进一步拓展。

正本清源：四类路线，一个本质

过去半年，”世界模型” 是 AI 行业最火也最混乱的概念。

从 Sora 引爆视频生成开始，

几乎所有公司都在推出自己的 “世界模型”。但到底什么是世界模型？没有人说得清楚。

王仲远在演讲中第一次系统性地梳理了现有技术路线的四大分类，为行业正本清源：

第一类是以语言为中心的世界模型，包括大语言模型、VLM、VLA。它们在文本空间预测下一个词，学到的是语言描述的世界，但并不理解背后的物理后果。

第二类是以像素为中心的世界模型，也就是 Sora、Seedance 这类视频生成模型。这也是当前被误用最广的方向。

“视频生成模型不等于世界模型。” 王仲远说得非常直接，”Sora 可以生成一群猪在天上和飞机一起飞，恰恰说明它不遵循真实物理规律。”

第三类是以三维结构为中心的世界模型，包括各类 3D 重建模型以及李飞飞团队的 World Labs Marble 模型。但三维空间重建不等于理解世界，几何结构也不代表物理状态。

第四类是以视觉表征为中心的世界模型，以杨立昆的 JEPA 系列为代表。它们预测视觉表征的演化，但视觉嵌入的变化并不等于物理规律的演化。

智源认为，以上四类技术路线距离真正的世界模型都还存在一定差距。

那么，真正的世界模型到底是什么？

智源给出的定义非常明确：世界模型的核心本质，是预测下一个物理状态。

这是一个简单但极其深刻的判断。它把世界模型从一个营销概念，拉回到了一个可衡量、可验证的技术标准上。

悟界系列：双引擎架构，五年三步跃迁

基于这个判断，智源发布了两大世界模型，形成 “物理基座 + 通用交互” 的双引擎架构，共同构成完整的世界模型技术体系，为物理 AGI 提供从底层物理可信性到顶层类人认知交互的全栈支撑。

第一个是悟界・Physis-v0.1—— 全球首个通用世界基座模型。

与行业主流的像素级预测不同，Physis 走了一条智源独创的路线：物理隐空间表征。它彻底摒弃了传统的帧级预测方案，用专属的物理状态编码器，把视频、深度 RGB、3D 点云、力触反馈等所有模态的信息，统一压缩成标准化的隐空间物理状态。

这个设计带来了四个核心能力：物理一致性、动作因果性、长程可推演性、通用泛化性。目前 Physis 已经支持 50 余种复杂物理场景的长程推理。

第二个是悟界・RoboBrain Orca v0，这是业界第一个以下一个物理状态预测为核心的具身大脑。它真正实现了 “想、看、动” 三位一体。

比如命令 “把桌上的可乐递给客人”，它能同时完成：语言推理确认哪瓶是可乐，视觉预测绕开中间的花瓶，动作决策规划抓取路径。

值得注意的是，这次发布的只是 v0.1 版本。“该模型目前还在训练中，将在未来几个月开源。” 王仲远明确了开源时间表。

从悟道到悟界，智源用五年时间走了三步。

2021 年，悟道大模型，确立了 Next Token Prediction 的范式，开启中国大模型时代。

2024 到 2025 年，悟界・Emu3/3.5，实现多模态统一学习。今年 1 月，Emu3 登上《Nature》正刊 —— 这是中国科研机构主导的大模型，第一次登上《Nature》正刊。半年之内连登《Nature》和《Science》两大顶刊，是这条路线正确性最好的证明：

除了 Emu3 的《Nature》论文，智源联合清华大学基于悟界・Brainμ 开展的 “记忆 – 睡眠调控机制” 研究，也于近期登上《Science》正刊。

2026 年，悟界・Physis，正式迈向 Next Physical State Prediction 的世界模型时代。

全栈布局：从实验室到真实场景的落地

世界模型不是空中楼阁，智源构建的是一整套完整的技术体系。

在神经科学领域，悟界・Brainμ1.0 可以把人类、猕猴、小鼠三个物种的 11 种脑信号，统一编码成标准 Token，实现脑信号与语言、图像、视频的互相转换。

通俗来说，它已经可以做到 “周公解梦”—— 通过脑信号还原梦境内容。配套发布的 BrainToken 平台，汇聚的神经科学数据已经突破万亿 Token。

在 AI 制药领域，悟界・OpenComplex 2.5 用单一模型统一覆盖了制药四大关键步骤，为神经退行性疾病等难成药靶点提供了新技术路径。

如果说世界模型给 AI 赋予了「常识」，那么智能体则让 AI 长出了「手脚」。

在智能体层面，智源一口气发布了四款产品：与安贞医院联合研发的心脏辅助诊断智能体，诊断 AUC 超过 0.93；

面向科学发现的自主研究智能体 AREX，比肩万亿参数级旗舰模型；面向个人用户的 SoulAgent，Token 成本节省 30%，资源占用降低 80%；以及面向生物安全的风险发现智能体，首次打通干湿实验闭环。

在基础生态层面，FlagOS 2.1 适配 18 家芯片厂商的 32 款芯片，是全球适配芯片品类最多的计算系统。发布即多芯适配，DAY 0 即可完成主流模型的多款芯片适配。FlagCX 通信库更是实现了全球 AI 芯片通信的 ITU 国际标准与国家标准 “双立项”。

目前 FlagOS 的生态成员已超过 80 家，全球下载量超过 37.5 万次，触及开发者 5.6 万人，内置算子总数超过 600 个，这套开源生态的盘子正在持续滚大。

大会现场的体验区更是直观展示了这些技术的落地成果：全球首个跨本体人形机器人全自主乒乓球对打系统、

能完成套垃圾袋和双手协同清理等复杂任务的酒店清洁机器人、安贞 – 智源心脏 AI 医院体验区、神经科学与 AI 药物发现展区，让参会者亲手操作、沉浸式感受 AI 与物理世界的交互。

面向未来：青年领军与冷静判断

本届大会最具深度的讨论，出现在王仲远主持的巅峰对话圆桌。

小米罗福莉认为 Claude Fable 5 本质仍是预训练、数据与强化学习的自然结果；

清华朱军指出 Token 消耗下降是行业正确方向；

刘知远分析 Anthropic 的成功源于找准代码这一专业领域，强调智能革命的本质在于用 AI 替代机械重复的脑力劳动；

安波则提出 AI 自进化不能依赖封闭环境。

而在黄铁军与王坚的播客对话中，两位行业老兵探讨了更宏大的命题：中国大模型如何从追赶验证走向路线选择、体系构建与范式创新，如何从 “跟随国际主流范式” 转向 “形成自身问题意识”、实现原创范式跃迁。

在闭幕演讲中，黄铁军更系统地提出了 AGI 五级演进时间表与风险框架：

Level 0（认知低于人类）：已成为过去，风险在于误用、滥用与恶用

Level 1（认知超人）：正在当下发生，人类面临 “躺平” 或 “理性信任” 的选择

Level 2（具身超人）：预计 2035 年实现，届时人类将超出对其物理控制的能力

Level 3（感知认知结合产生意识）：代表着 “机器崛起”

Level 4（产生自我意识）：预计 2045 年，可能导致人类成为次等物种

Level 5（脱离人类知识和大脑架构）：意味着 AGI 独自探索宇宙

在智源，有一个传统叫 “青年挑大梁”。当年悟道系列的核心团队，平均年龄只有 30 岁。今天领衔悟界・Physis 研发的，是 22 岁的陈博远。

对于世界模型的时间表，王仲远保持着科研工作者特有的冷静：”至少还需要好几年。科研就是这样，可能卡在一个地方三五年没有突破，也可能突然就突破了。未来三到五年，都会是世界模型持续演进的阶段。”

但方向已经无比清晰。当 AI 学会了 “思考” 物理规律，并长出能自主行动的 “手脚”，它终于不再只是 “纸上谈兵”，而是开始真正理解世界，并展开行动。

从预测下一个词元，到预测下一个物理状态；从理解数字世界，到理解物理世界；从悟道，到悟界。

八年来，智源用自己的节奏，一步一个脚印地走在最前面。

正如黄铁军在闭幕演讲中引用图灵的那句名言：“吾等目力短亦浅，能见百事待践行”。

智源正以 “结构决定功能” 与 “功能塑造结构” 的辩证统一，以 “吾道一以贯之” 的战略定力，推动人工智能、物理世界和生命科学 “三体互动”，构建 AGI 的大脑、眼睛和身体闭环，让智能真正嵌入物理世界。

而每年六月的智源大会，就是我们观察这个时代进程最好的窗口 —— 在这里，你总能看到人工智能的未来。

END –

范式跃迁：智源定义世界模型时代，人工智能正式迈向物理世界 | 前沿在线

Frontiers

Frontiers

相关文章

New Milestone Unlocked: Frontiers Online Becomes a Founding Member of the Haidian Technology Self-Media Committee and a Council Member of the Network Influencers Association, Officially Joining the Core Communication Ecosystem

WAVE2025泛互联网全球大会成功举办，共探AI驱动下的出海新机遇

钉钉一口气发20多个新品：Agent OS操作系统让AI从问答走向干活

推荐阅读