拆解世界模型落地痛点,探寻鸿蒙生态发展路径
2026-05-23 17:57:12
  • 0
  • 0
  • 0

李云龙

秘笈科技CTO

精彩观点:

世界模型当下最大短板是数据不足+上下文信息割裂,全终端数据无法统一汇总处理,制约能力释放。各类平台智能推荐、自动驾驶均是初级世界模型,感知维度单一,距离全场景通用形态差距较大。

鸿蒙现有AI开放力度不足,相比安卓、谷歌底层融合大模型的节奏,仍需加快技术能力下放。端侧大模型可顺利适配鸿蒙硬件,但缺少贴合大众日常的落地场景,实用价值未能发挥。

未来手机或将淘汰传统独立APP,以统一AI系统为核心,依托用户行为数据实现场景化主动服务。鸿蒙原生分布式架构,是打通全设备数据、落地C端智能的天然优势。智能眼镜、随身终端是世界模型落地最优过渡载体,比机器人更易普及,适合积累场景数据。数据、连续上下文、智能预判三大要素,是普通用户最快感知世界模型落地成效的关键。

发言内容:

大家好,我是秘笈科技的CTO,也是李明顺总投的公司,我们现在主要做城市文旅数字化相关业务。同时我也是行行AI技术合伙人,长期深耕前沿AI技术研究。今天结合自身实践与公司文旅落地案例,和大家聊聊当前鸿蒙生态的发展现状。

我认为世界模型的核心并不在于范例,现在最大的问题是连续上下文跟数据量不够,所谓连续的上下文,其实就是我们在日常用的手机、电脑、智能家居等各类终端设备,它们本身都可以作为数据传感器,接触所有数据需要有一个智能体,有一个AI去处理。但目前行业内没有任何一家企业,能够将这些全域数据统一汇总并由智能体统一处理。未来端侧世界模型,有望实现长时序、多步骤的预测。

当下电商、短视频平台的智能推荐,本质上就是基于模型的能力,并非通用大模型。随着数据不断积累,这类预判能力还会持续升级。比如上个月大疆发布了一个新的Osmo Pocket4,已实现和鸿蒙系统联动,拍摄内容可通过鸿蒙互联快速流转至鸿蒙设备。往后,随着IoT生态设备持续增多,智能穿戴设备拍摄的画面、出行记录等可自动同步至手机、电脑上,还能自动剪辑视频、生成出行游记。这类主动预判与内容生成能力,是具身智能全面普及前最容易让C端用户明显感受到过渡形态。

其实世界模型早已落地应用,我们作为C端用户感知到的自动驾驶,包括特斯拉,鸿蒙的乾坤智驾等都属于这类范畴。自动驾驶感知的维度可能比我们未来具身智能的感知维度要低得多,有激光雷达、视觉感知、车辆变道、车辆接触控制、交通信号,这些都是简单的世界模型。但是未来成熟的世界模型要扩展到手机、家居,包括各种各样的医疗、文旅等各种场景。

目前鸿蒙的6.1的系统已经开放了一部分AI的能力,比如说小艺的调用,但是整体开放力度我觉得还是不足。近期行业竞品动作频繁,这个月谷歌接连举办两场发布会。安卓17也完成了迭代,将Gemini 大模型与安卓系统底层深度融合,发布了一个新的功能App Function,可全面读取手机本地数据,就是我们豆包手机的功能,现在由谷歌开放给所有安卓设备,不过这类海外技术国内适配意愿较低。

两周前,我尝试将目前顶尖通用端侧模型Gemma 4移植到鸿蒙Next系统上,依托鸿蒙第一代麒麟9000S的芯片,跑起来速度还可以,能够顺利运行,可完成基础对话与模态理解,但仍旧缺少成熟落地的应用场景。在我看来。端侧模型真正的价值,是依托智能眼镜等穿戴设备,自动记录日常行程、生成生活日志、完成素材自动剪辑,贴近大众日常使用需要。

在文旅数字化落地的过程中,也在尝试用各种智能眼镜做多模态的数据采集,包括现在世界上卖得最好的眼镜,Meta雷朋的智能眼镜。其国内配套应用软件由我主导开发并开源,我长期深耕开源社区,在Github上开源了挺多的项目,都已经达到数千使用量,也是希望通过开源方式推动技术落地。

另外,谷歌在5月20日可能会开一个新的发布会,这个发布会上,他们计划把原来的Chromebook产品线替换成GoogleBook,推出了很多全新全场景的智能产品,这些产品的发展思路本质上和鸿蒙正在布局的生态方向高度重合。只不过谷歌的全球化布局更早、影响力更大一些。鸿蒙Next初代版本,就做了全生态的设备感知。所谓的设备感知,其核心就是打通设备数据流转,为世界模型积累完整的上下文信息。

谷歌还提出一个比较好的行业新趋势,未来手机或将彻底摆脱各类独立APP,仅保留统一的AI操作系统入口,如今多数大模型产品都仅有简单的交互入口,如果把它变成按钮或其他的东西,会限制大模型本身的能力。预计一到两年内,传统APP形态会逐步弱化,依托时间模型的预判能力与决策能力,系统可根据用户日常行为、使用习惯、场景需求等自动匹配对应操作界面,完成各类生活服务。AI也将从以往被动等待用户指令,转变为主动提供服务,这也是世界模型最易落地的主流方向。

目前安卓17、苹果端侧AI都具备很强的能力了。但是生态太封闭了,上下文数据互通也受限,安卓这次做了一个比较好的生态融合样板,但是未来有多少APP愿意适配尚不明确。反观鸿蒙依托天原生分布式架构,打通手机、平板、手表、智能眼镜、车机等全终端,再加上大疆等外部生态企业持续接入,更有条件把智能预判、主动生成能力落地到大众消费端。

之前我们看到,豆包一个做互联网AI的,做了一款手机,一下就破圈了。值得我们深思,原本属于手机厂商赛道的AI终端产品,反倒由互联网AI企业率先做成并快速出圈的原因是什么?核心原因在于思维差异,传统厂商偏重硬件使用体验,而这类新兴产品更侧重直接帮用户完成实际需求,简化操作流程。顺应这个趋势,未来大众常用智能终端也会迎来结构变革,手机、智能眼镜等穿戴设备有望成为新主流。我也针对相关设备配置需求做了一个叫“肉包”的开源版本,目前也有不少用户使用。

站在普通用户视角,未来AI的终极形态,是打通全维度个人行为的上下文信息,汇聚多模态全域数据流,依托端侧或端云协同模式,自主完成判断与执行,在健康、出行、家居生活等场景实现主动感知、主动服务。而各类随身穿戴设备、便携终端等是实现这一形态的主要载体,相比使用场景受限的机器人,这类设备更合适作为过渡载体逐步普及。

总而言之,数据量+连续上下文信息+预测智能判断能力就是C端最快感知世界模型的落地的核心要素,也是未来具身智能发展的前置基础。

 
最新文章
相关阅读