

编辑:前沿在线 编辑部
就在最近,北京中关村国际创新中心,第八届智源大会开幕式的主会场里,

一万多名参会者挤满了每一个角落,连过道都站满了人。

这是八年来智源大会参会人数最多的一届,也是整个 AI 行业最真实的温度计:当大模型进入产业落地的深水区,当参数竞赛的红利逐渐消退,所有人都在寻找下一个技术方向的答案。
被业内称为 “AI 春晚” 的智源大会,今年端上来最硬的一盘菜,就是世界模型。

智源研究院院长王仲远站在台上,用一句话为整个行业指明了方向:我们正在经历从 “预测下一个词元” 到 “预测下一个物理状态” 的重大范式变革,世界模型将成为与大语言模型并驾齐驱的下一代人工智能基座模型。

这不仅仅是一家研究机构的技术发布,更是为过去半年混乱的 “世界模型热” 完成了一次正本清源,为整个行业立起了一条通往物理世界通用人工智能的清晰路标。

在此之前,大语言模型对现实世界的理解,本质上来自海量语言数据中的经验归纳,而不是对物理过程的真实模拟。
大语言模型可能知道 “推一下桌边的杯子,大概率会掉下来”,但并不意味着它明白重力、受力、惯性和空间关系是怎么回事。它能背出 “铁碗不能放进微波炉” 的常识,但真让机器人去操作,没有哪个大脑真正理解这个物理规则。

智源要做的,就是给 AI 装一套真正的「物理引擎」—— 给它一个动作,它来预测这个动作在真实世界里会产生什么后果。
这背后是智源研究院成立八年来一以贯之的定位:做高校做不了,企业不愿做的事。
高校有顶尖人才,但缺工程团队和计算资源;企业有资源,但必须考量商业回报。智源处在这两者中间,既敢押注 “通用世界模型” 这种短期内看不到商业回报的方向,也能用工程化团队把论文级的想法做到可开源、可部署。

过去八年,智源一次又一次证明了这条路的价值。
2020 年,当全行业还在观望大模型技术路线时,智源率先成立悟道研发团队;2021 年发布中国首个万亿参数大模型悟道 1.0,开启了中国大模型时代;2023年,当所有人都在扎堆做大语言模型时,智源把杨立昆请到智源大会讲世界模型,率先布局下一代技术;2024 年,智源明确提出 “大语言模型→多模态大模型→世界模型” 的技术演进路线。

今天,当全行业开始讨论世界模型时,智源已经拿出了完整的技术路线图和一系列重磅成果。
截至目前,智源开源模型超 200 个,全球总下载量累计超过 10 亿次。

自 2019 年启幕以来,智源大会已连续成功举办八届,累计汇聚了 14 位图灵奖得主、过千位产学研顶尖专家,吸引全球 30 多个国家和地区、超 1000 万人次专业人士参与。

如果把过去几年 AI 的发展拉成一条时间线,会发现智源大会几乎踩中了每一个关键节点:首届大会讨论深度学习与基础模型,大模型浪潮爆发后聚焦预训练与多模态,再到今天,舞台中央已经变成了世界模型和智能体。
八年来,智源大会形成了自己独特的气质:技术硬核、国际视野、青年人才。业内人都知道,这是 “AI 内行的学术盛会”—— 没有太多花哨的营销,干货密度是所有行业大会里最高的。

本届大会最震撼的声音来自图灵奖得主 Whitfield Diffie。这位现代数字安全体系的奠基者,在演讲尾声给出了一个惊人预测:到 2050 年,机器智能将超越人类,成为世界运行的主宰。

Diffie 围绕 AI 安全提出了深刻的警示:当前依赖反馈控制的方法效果不佳,他主张形式化方法才是未来。他乐观地认为,未来 AI 将成为完成数学证明的工具,大幅提升系统可靠性。
另一位图灵奖得主、强化学习奠基人 Andrew Barto 则将强化学习归结为 “控制、搜索与联想记忆” 的三位一体。他强调深度强化学习与大脑奖励系统的最新成果相结合,将指引下一轮技术方向,最后也发出警示:小心你许的愿 —— 你可能真的会得到它,警惕奖励信号设计带来的 “反常实例化” 风险。

本届大会的嘉宾阵容创造了新纪录:8 位中外院士、30 余位 30 岁以下青年科学家、40 余位 AI 企业 CEO 和创始人、200 余位顶尖专家学者齐聚北京。Meta、英伟达、哈佛、MIT 等全球顶尖机构,与阿里、腾讯、小米、清华、北大、人大,以及智谱、面壁、生数等中国 AI 创新力量,在同一个平台上交流。

1 场主论坛,24 场平行论坛,200 余场演讲。
智能体论坛从去年的 1 场拓展至 3 场,还首次设立了全天候 “AI× 神经科学论坛”,汇聚 15 余位百亿估值具身智能 CEO 共商发展路径,并首创 “智能体听会” 功能,让观众借助数字分身并行参会。
报名最火爆的六场论坛分别是:开幕式暨全体大会、大模型产业论坛、AI 自进化、具身智能与人形机器人、终端智能体与 OpenClaw 以及世界模型。
今年还首次新增了 AI Native 教育论坛 和 Token 经济与 OPC 论坛,分别探讨智能时代的教育变革与生产关系重构,覆盖前沿议题的广度进一步拓展。

过去半年,”世界模型” 是 AI 行业最火也最混乱的概念。
从 Sora 引爆视频生成开始,

几乎所有公司都在推出自己的 “世界模型”。但到底什么是世界模型?没有人说得清楚。
王仲远在演讲中第一次系统性地梳理了现有技术路线的四大分类,为行业正本清源:

第一类是以语言为中心的世界模型,包括大语言模型、VLM、VLA。它们在文本空间预测下一个词,学到的是语言描述的世界,但并不理解背后的物理后果。
第二类是以像素为中心的世界模型,也就是 Sora、Seedance 这类视频生成模型。这也是当前被误用最广的方向。
“视频生成模型不等于世界模型。” 王仲远说得非常直接,”Sora 可以生成一群猪在天上和飞机一起飞,恰恰说明它不遵循真实物理规律。”
第三类是以三维结构为中心的世界模型,包括各类 3D 重建模型以及李飞飞团队的 World Labs Marble 模型。但三维空间重建不等于理解世界,几何结构也不代表物理状态。
第四类是以视觉表征为中心的世界模型,以杨立昆的 JEPA 系列为代表。它们预测视觉表征的演化,但视觉嵌入的变化并不等于物理规律的演化。
智源认为,以上四类技术路线距离真正的世界模型都还存在一定差距。
那么,真正的世界模型到底是什么?

智源给出的定义非常明确:世界模型的核心本质,是预测下一个物理状态。
这是一个简单但极其深刻的判断。它把世界模型从一个营销概念,拉回到了一个可衡量、可验证的技术标准上。

基于这个判断,智源发布了两大世界模型,形成 “物理基座 + 通用交互” 的双引擎架构 ,共同构成完整的世界模型技术体系,为物理 AGI 提供从底层物理可信性到顶层类人认知交互的全栈支撑。
第一个是 悟界・Physis-v0.1—— 全球首个通用世界基座模型。
与行业主流的像素级预测不同,Physis 走了一条智源独创的路线:物理隐空间表征。它彻底摒弃了传统的帧级预测方案,用专属的物理状态编码器,把视频、深度 RGB、3D 点云、力触反馈等所有模态的信息,统一压缩成标准化的隐空间物理状态。

这个设计带来了四个核心能力:物理一致性、动作因果性、长程可推演性、通用泛化性。目前 Physis 已经支持 50 余种复杂物理场景的长程推理。
第二个是 悟界・RoboBrain Orca v0,这是业界第一个以下一个物理状态预测为核心的具身大脑。它真正实现了 “想、看、动” 三位一体。

比如命令 “把桌上的可乐递给客人”,它能同时完成:语言推理确认哪瓶是可乐,视觉预测绕开中间的花瓶,动作决策规划抓取路径。
值得注意的是,这次发布的只是 v0.1 版本。“该模型目前还在训练中,将在未来几个月开源。” 王仲远明确了开源时间表。
从悟道到悟界,智源用五年时间走了三步。
2021 年,悟道大模型,确立了 Next Token Prediction 的范式,开启中国大模型时代。

2024 到 2025 年,悟界・Emu3/3.5,实现多模态统一学习。今年 1 月,Emu3 登上《Nature》正刊 —— 这是中国科研机构主导的大模型,第一次登上《Nature》正刊。半年之内连登《Nature》和《Science》两大顶刊,是这条路线正确性最好的证明:
除了 Emu3 的《Nature》论文,智源联合清华大学基于悟界・Brainμ 开展的 “记忆 – 睡眠调控机制” 研究,也于近期登上《Science》正刊。
2026 年,悟界・Physis,正式迈向 Next Physical State Prediction 的世界模型时代。

世界模型不是空中楼阁,智源构建的是一整套完整的技术体系。
在神经科学领域,悟界・Brainμ1.0 可以把人类、猕猴、小鼠三个物种的 11 种脑信号,统一编码成标准 Token,实现脑信号与语言、图像、视频的互相转换。
通俗来说,它已经可以做到 “周公解梦”—— 通过脑信号还原梦境内容。配套发布的 BrainToken 平台,汇聚的神经科学数据已经突破万亿 Token。

在 AI 制药领域,悟界・OpenComplex 2.5 用单一模型统一覆盖了制药四大关键步骤,为神经退行性疾病等难成药靶点提供了新技术路径。

如果说世界模型给 AI 赋予了「常识」,那么智能体则让 AI 长出了「手脚」。
在智能体层面,智源一口气发布了四款产品:与安贞医院联合研发的心脏辅助诊断智能体,诊断 AUC 超过 0.93;
面向科学发现的自主研究智能体 AREX,比肩万亿参数级旗舰模型;面向个人用户的 SoulAgent,Token 成本节省 30%,资源占用降低 80%;以及面向生物安全的风险发现智能体,首次打通干湿实验闭环。

在基础生态层面,FlagOS 2.1 适配 18 家芯片厂商的 32 款芯片,是全球适配芯片品类最多的计算系统。发布即多芯适配,DAY 0 即可完成主流模型的多款芯片适配。FlagCX 通信库更是实现了全球 AI 芯片通信的 ITU 国际标准与国家标准 “双立项”。

目前 FlagOS 的生态成员已超过 80 家,全球下载量超过 37.5 万次,触及开发者 5.6 万人,内置算子总数超过 600 个,这套开源生态的盘子正在持续滚大。
大会现场的体验区更是直观展示了这些技术的落地成果:全球首个跨本体人形机器人全自主乒乓球对打系统、

能完成套垃圾袋和双手协同清理等复杂任务的酒店清洁机器人、安贞 – 智源心脏 AI 医院体验区、神经科学与 AI 药物发现展区,让参会者亲手操作、沉浸式感受 AI 与物理世界的交互。

本届大会最具深度的讨论,出现在王仲远主持的巅峰对话圆桌。

小米罗福莉认为 Claude Fable 5 本质仍是预训练、数据与强化学习的自然结果;

清华朱军指出 Token 消耗下降是行业正确方向;

刘知远分析 Anthropic 的成功源于找准代码这一专业领域,强调智能革命的本质在于用 AI 替代机械重复的脑力劳动;

安波则提出 AI 自进化不能依赖封闭环境。

而在黄铁军与王坚的播客对话中,两位行业老兵探讨了更宏大的命题:中国大模型如何从追赶验证走向路线选择、体系构建与范式创新,如何从 “跟随国际主流范式” 转向 “形成自身问题意识”、实现原创范式跃迁。

在闭幕演讲中,黄铁军更系统地提出了 AGI 五级演进时间表与风险框架:
Level 0(认知低于人类):已成为过去,风险在于误用、滥用与恶用
Level 1(认知超人):正在当下发生,人类面临 “躺平” 或 “理性信任” 的选择
Level 2(具身超人):预计 2035 年实现,届时人类将超出对其物理控制的能力
Level 3(感知认知结合产生意识):代表着 “机器崛起”
Level 4(产生自我意识):预计 2045 年,可能导致人类成为次等物种
Level 5(脱离人类知识和大脑架构):意味着 AGI 独自探索宇宙

在智源,有一个传统叫 “青年挑大梁”。当年悟道系列的核心团队,平均年龄只有 30 岁。今天领衔悟界・Physis 研发的,是 22 岁的陈博远。
对于世界模型的时间表,王仲远保持着科研工作者特有的冷静:”至少还需要好几年。科研就是这样,可能卡在一个地方三五年没有突破,也可能突然就突破了。未来三到五年,都会是世界模型持续演进的阶段。”

但方向已经无比清晰。当 AI 学会了 “思考” 物理规律,并长出能自主行动的 “手脚”,它终于不再只是 “纸上谈兵”,而是开始真正理解世界,并展开行动。

从预测下一个词元,到预测下一个物理状态;从理解数字世界,到理解物理世界;从悟道,到悟界。
八年来,智源用自己的节奏,一步一个脚印地走在最前面。
正如黄铁军在闭幕演讲中引用图灵的那句名言:“吾等目力短亦浅,能见百事待践行”。
智源正以 “结构决定功能” 与 “功能塑造结构” 的辩证统一,以 “吾道一以贯之” 的战略定力,推动人工智能、物理世界和生命科学 “三体互动”,构建 AGI 的大脑、眼睛和身体闭环,让智能真正嵌入物理世界。

而每年六月的智源大会,就是我们观察这个时代进程最好的窗口 —— 在这里,你总能看到人工智能的未来。

END –
