世界模型的思考与探索-博客科技的专栏

世界模型的思考与探索

2026-05-23 13:30:42栏目：默认栏目 IP属地：IP未知

方杰民华为鸿蒙AI专家

精彩观点：

迈向通用人工智能核心瓶颈在于搭建优质交互环境，当前语言大模型能力存在局限，行业发展重心正从语言模型转向可对接物理现实的世界模型，业内对世界模型定义与发展路径尚未形成统一共识，发展呈现百花齐放态势。

华为小艺AI Lab深耕终端场景布局世界模型，一边围绕好终端设备和场景去推进模型的迭代，自研多模态架构，打通理解与生成统一能力；一边攻坚长视频理解、3D/4D 空间生成，打造可交互虚拟物理环境。

发言内容：

各位专家、各位领导：

大家早上好！很荣幸今天能和大家分享，华为终端小艺AI Lab对世界模型的一些探索和思考，当然这个报告主要是抛砖引玉，一会儿希望能够学习到更多专家的意见。

刚才高老师有提到，现在大家都在从语言模型，更多地关注如何跟世界交互，以及物理世界的规律和现象。我们可以看到，大家瞄准的终极目标一定是通用人工智能。大家也在讨论通用人工智能的概念，希望计算机或者机器人能完成各种各样的任务。但是从这个路径上看，其实是很难实现的。

从形式化定义来看，即在给定的状态空间，动作集合下，如何寻找一个策略模型，能够让奖励函数的优化最大化。我们判断在走向AGI过程中有一个很重要的问题需要去解决，就是怎么构建交互环境。大家可以看到历史上有很多案例，像AlphaGO、AlphaStar，包括ChatGPT，其实都构建了一个非常良好的有反馈的交互环境。华为终端的小艺，也在探索如何跟用户深度结合，在这样的交互环境里去演进基础模型。

从这方面看，现在要实现AGI还有一些不成熟的条件，这也是我们努力的方向。一是模型方面，现在的语言模型只能在文本空间做推理，这个能力还是比较受限的，未来怎么能够在更加丰富的模态下去探索、理解和生成范式，是一个很重要的问题。另外，现在像LLM大语言模型的成功，其实就是在文本空间构建了一个非常好的交互环境，如果说未来考虑物理世界的真实情况，怎么样兼顾真实性和交互性去探索这个环境，也是一个很重要的问题。

像华为终端特别是小艺这边，未来必然还是希望围绕终端的产品设备，同时面向具身机器人等更多场景做好这个事情。核心点在于从用户的交互，以及与真实世界的互动出发去推动AI大模型。同时在这个过程中，探索AI大模型跟商业上的一些突破点，如何去结合。

我们从用户体验的角度定义了五个层级，AI模型从最开始的简单辅助工具演进到后面能够实现自主智慧，这是我们希望看到的一个演进路线。在未来，华为终端可能会有几个以Agent为核心的战略，一是怎么以Agent为核心推进大模型，其关键点在于如何与用户，与环境去做交互。二是以Agent为核心，AI大模型如何管理动态的工作流。

我们今天这个报告，以及我们关注的观点，就是AI大模型下一步一定是世界模型。世界模型这个概念在最近非常火，不管是在学术界、企业界，还是各种投资的领域，对世界模型的关注都非常多。我们可以看到，世界模型这一概念，最早是在2018年《World Models》这篇论文中提出的，但真正被广受关注还是近两到三年。当前整个业内有各种各样对世界模型的解读和定义，比如像LeCun，他们提出的JEPA架构，认为未来AGI基础的认知架构就是对未来状态的预测。到2024年OpenAI推出了Sora的模型，认为视频生成的形式足够建模世界，也可以认为是一个世界模拟器，或者世界模型。到后面像这两年，特别是近一年有一个非常重要的代表性的事情，Google DeepMind推出了Genie3，他们从Genie1到Genie3发展的非常快，而且幅度非常大。Genie3可以说是一个基于视频生成、可交互虚拟环境的世界模型，可以用前后左右一些action运动控制的信号让它在整个世界环境中，通过视频帧及时控制和运动，而且效果非常好。包括国内，最近也有很多公司在发力，像蚂蚁推出的LingBot-World也在进行探索。

当然现在世界模型的发展是百花齐放，各个行业，各位专家也提出了很多不同的观点。我们从中提取出了一些比较重要的观点分支，比如，世界模型是否需要跟真实的物理世界交互，不同专家就有不同的观点。其中还有一些更激进的观点，像OpenAI的Ilya，他认为LLM就是世界模型，如果LLM文本智能能够做得足够好，也能够充分的理解世界。大家对于世界模型有各种各样的看法，今天为大家介绍一下华为终端小艺这边的探索。

我们现在的探索路径还是希望整个大模型能够充分的围绕终端的各种设备，包括像车上的座舱、驾驶这些场景，围绕好终端这些设备和场景去推进模型的迭代。现在分为两个大的分支：

第一个分支是要做好基座模型，一个是语言模型要进一步的推进，要去学习到足够多的世界知识，另外是依托华为的设备，加强端侧的推理能力，现在大多还是在云侧去推理大语言模型，但是在很多需要及时响应以及需要隐私的场景中，端侧能力还是非常重要的。

另外，我们也一直在推进视觉多模态这个方向，因为真实世界的信号远不止文本这么简单，特别是视觉的信号，还有语音的信号等等。

第二个分支是复杂场景怎么构建，以及在复杂场景中怎么去演进模型。我们现在重点关注有两个点：

第一，视频理解，我们人在真实物理世界中活动，眼睛所接收的信号一直都是非常长序列的视频。现在的模型如果要增强足够大的，对真实物理世界的理解能力，对长视频的理解是非常重要的一环。

第二，因为真实物理世界本身是以3D或者4D的形式存在，高维的3D世界怎么重建和生成，也是复杂环境构建中重要的一环。

在这些条件同步推进的同时，我们希望未来这些技术能够充分的结合。一是图像视频有了足够理解，还能够进一步衍生，比如再编辑。二是在高维世界下我们能够构建可交互的3D世界模拟器。有了这些技术，我们就能够在这个环境中构建复杂交互的能力，未来基于这样的链条和技术栈能够推演出下一代的世界模型。总结来说，希望从自然语言能够走向多模态，从以前简单的感知走向复杂交互，去推演下一代的世界模型。

下面跟大家简单介绍一下我们的一些探索和进展。

首先在语言这一块，我们主要在推进语言模型端侧的能力。现在我们内部有一个完全基于昇腾910B芯片，从零开始训练的语言模型。这个语言模型主要瞄准的是端侧场景，现在还是一个0.56B非常轻量的模型，但通过内部测评已经在各个指标上超越了同规模的其它模型。我们在中间做了很多工作，比如说数据上怎么推进，以及训练方案上怎么推进。当前这个模型也正在积极推进落地到华为的车机上，已经取得了一些初步结果。后面我们会进一步去推进，包括数据、场景的方案，希望能够把端侧模型用在华为的车机上面。

另外一块，希望跟大家介绍的是关于多模态的探索。其中视觉多模态，有一个非常重要的技术，就是编码器。编码器大家可以理解成图像输入之后，如何把它压缩到隐空间，这其实是非常重要的。我们在这一块是从零开始去训练支持原生分辨率的视觉多模态编码器，整个打通了多模态预训练的流程。中间我们得到了一个0.86B的自研ViT编码器，它的数据有2.5B，这个数据跟业内相比并不是最多的，但以1/4左右的数据量，零样本、分类检测上和业内最优的编码器相比都取得了非常有竞争力的结果。

同时我们还在探索怎么让多模态理解与生成统一到一个架构。我们认为，未来多模态模型发展的一大重要趋势就是走向统一，因为要生成就要能够理解这个世界，而理解足够充分情况下也能够再生成。为此我们提出了一个EMMA架构，并取得了一些技术创新，比如说如何高效的压缩AE，如何更好的做Token计算量的缩减，以及如何共享参数等。目前在EMMA理解与生成统一模型，在业内不管是理解的Benchmark，还是生成的Benchmark上都达到了SOTA的水平。这个模型除了能够做多模态理解的任务，图像生成的效果也达到了非常逼真的水平。因为理解和生成能够统一，所以对图像的进一步的交互，尤其是编辑，其实也能做得非常好。

我们还会基于这些经验把它推演到更复杂的媒体形式上，比如视频。倘若理解与生成能够统一，能理解足够丰富的物理世界知识之后，我们可以把这个能力推演到像视频这样更复杂的信号上去。这里举一个例子，我们要擦除一个玻璃柜中的古董花瓶，业内很多视频编辑算法，只是把花瓶去掉，但玻璃上的倒影还在，如果能掌握足够丰富的世界知识，那花瓶擦除掉的同时，玻璃上花瓶的反光也会被去掉。

另外，如果模型能够掌握足够多的世界知识，还会具备较强的复杂推理能力。例如，大家可能经常会看到一些智力测试，像是移动一根火柴使等式成立，我的方法是让模型能够真正理解这个世界的知识和意图，去做对这些题目。在有了这样的复杂推理能力之后，有一些间接的指令都可以去理解，并且实现。

刚才介绍是我们依托基础模型，语言的基础模型和多模态的基础模型去推演更多的能力。另外我们也在关注如何在复杂场景中做一些研究。

第一个是长视频的问题，我们判断长视频以后会成为对于多模态理解的一个主要的研究对象。现在人类的真实生活中，其实一直在接受视频的信号，人活动一天，接受的视频信号可能长达十几个小时，如何去理解长视频的信号，是我们现在非常关注的一个问题。现在业内也在关注，怎么样处理超长的上下文和超大的复杂度。我们通常认为长视频信号是指一个小时以上（可能长达数十小时）的信号，相比于静态的图像，长视频的信号具有动态性，而且整个逻辑也会更复杂。对于长视频的理解，我们会继续探索下去，包括像“小艺看世界”等终端场景以及具身场景。

刚才说到长视频理解，是处理真实世界中一个重要的信号。另外真实世界其实是以3D的形式和4D的形式存在的，如何理解世界，做好3D的环境，也是必不可少的一环。

我们这几年也做了很多关于3D和4D创作或是生成的一些工作，从最早期的如何做好3D的重建，以及3D内容的理解，到后面怎么样从更稀疏的信号去做3D世界的生成，我们都做了很多工作。包括中间像4DGS的工作，相关论文在CVPR’24取得了影响力前五的成绩。

今天主要是向大家介绍，我们推出的3D生成基模型UniLat3D，以及WorldGrow这样一个无限3D世界生成器。

现在业内主要的3D生成基模型，大部分还是双阶段生成，先生成3D几何再生成纹理，我们就在探索能不能更统一，把几何纹理统一在一个模型里生成，够做到单阶段生成，因此推出了UniLat3D这个模型。这一模型能够实现只输入单张图像，就可以秒级生成高质量的3D资产，这也是业内首创的几何纹理统一的生成模型。通过我们设计的一些加速算法，生成速度最快可以做到单卡1秒以内完成。

那3D生成跟以往的3D重建有什么区别呢，比如像苹果的Object Capture，华为的Remy on HMOS，原来可能要依赖深度传感器或需要几十张图像。但是3D生成基模型如果足够强的话，只需要输入单张图像便可以完成。

另外我们依托3D生成基模型的能力做了一个3D世界生成器，这个模型可以从一个角落出发，去生成无穷大的3D的世界。在业内像刚才提到的Google的Genie，还有李飞飞老师他们的World Labs，更多还是基于图像或者视频生成的先验去做世界生成的事情，如果说我们有了3D的显式表征，生成就会更加稳定。像视频，大家如果体验过就知道会有很多幻觉，可能在切换视角的时候会产生畸变。另外有了3D，我们就可以直接进行交互，生成的环境可以像在玩一款游戏。

同时显式的3D场景支持一次生成，永久使用。生成好了就能够稳定在那，我们调用它，只需要调用渲染开销，视频生成就不一样，每次访问一些视频帧的时候都要重新推理，这就会涉及到巨额的计算开销。

这里可以看到一些效果，我们生成的世界，可以从一个角落出发，能够无限地生长，长出一个巨大的世界，我们可以把一个机器人丢进去，它可以在里面行走，以及做一些交互。我们未来希望可以把机器人放到这个仿真环境里面去训练。而且生成一个2000平的超大的室内空间，只需要在单张计算卡上跑20多分钟就能够完成。这个工作放出来之后也得到了业内很大的关注，在推特上有将近100万的浏览量。

后续我们会进一步去推进3D生成基模型和世界模拟器。最近我们的3D生成基模型会落地到小艺的场景，后面大家就能够在手机上体验到了。世界模拟器的生成模型，也会用到机器人的仿真环境的训练里面去。

总结来说，后续将持续推进工作，依托现有3D环境构建能力与长视频理解算法，打通整个闭环。实现环境内容的无限生成、获取足够长的信号，并进一步完成超长序列的视频理解。到后面我们希望这些技术能够螺旋迭代，走向更强大的世界模型。从最开始没有交互环境，专用视觉任务，比如分类、检测、分割，到当前基础的CNN或者Transformer模型，走向有交互的环境，比如4D可交互，可以做任意的物理仿真，可以做通用的多模态的任务，再到最后能够探索更强大的世界模型。

以上简单分享了一些我们的探索和观点，这里也给出一些建议的研讨方向：

1、世界模型现在百花齐放，形态并没有确定，下一代的世界模型该如何发展，或者说以什么样的形态去构建，这是一个值得思考的问题。

2、现在的大模型大家更加关注LLM，这两年开始关注Agent，后面世界模型如果做得越来越强，会对目前大模型的能力产生什么影响和改变？是不是能进一步改变大家目前生产力的方式？

3、现在世界模型这么新的话题，未来如何结合终端或者华为鸿蒙的生态去发展？

4、面向未来的鸿蒙AI关键的技术架构和技术突破路径到底有哪些？

这就是我分享的全部内容，谢谢各位专家！