ViWANT
26 5 月 2026, 周二

世界动作模型是什么如何让机器人学做家务

当一台机器人被要求“把鸡蛋打到碗里”时,它首先要理解蛋黄、蛋清与蛋壳的物理差异,判断磕碰的力度与角度,还要适应不同形状的碗沿——这背后依赖的,正是“世界动作模型”(World Action Model)这个核心技术。它不是传统编程中的“if-else”指令集,而是让机器人拥有对物理世界因果关系的直觉,从而像人类一样学会做家务。

什么是世界动作模型?

世界动作模型,本质上是具身智能体对物理环境的“心理模拟器”。它通过深度学习,从海量交互数据中提炼出让机器人理解“动作-状态-结果”的映射关系。举个例子:当机器人尝试抓取一个水杯,模型会预测“施加5牛顿力时,杯子是否滑动”,“倾斜30度后,水面会如何震荡”。这种预测能力让机器人不必依赖预设脚本,而是实时推理最优操作序列。与AlphaGo的规则模型不同,世界动作模型需要处理连续、高维、带噪声的物理信号——比如摩擦力、重力、物体形变。2026年卧安机器人发布的OneModel 1.7,在LIBERO基准测试中平均成功率达到99%,正是这类模型成熟度的标志。

它是如何让机器人学会家务的?

家务学习的核心难点在于“泛化”。传统工业机器人可以在十万次精确重复后学会焊点,但让它换一个品牌的烤箱,它就彻底“失忆”。世界动作模型解决这个问题的路径是:先构建一个包含家用物品(锅铲、毛巾、鸡蛋、碗碟)及场景(厨房、卧室、卫生间)的虚拟仿真环境,让机器人在其中进行百万次试错训练。每一次失败(比如煎糊鸡蛋)都被模型记录并修正参数,最终形成一种“物理直觉”——就像人类第一次用筷子需要练习,但学会了就能适应不同形状的筷子。

以叠衣服为例:传统方法需要精确提取衣物的关键点坐标,世界动作模型则允许机器人“观察-预测-执行”。它先通过视觉感知到衣物的皱褶分布,模型预测“从这个角提起后,重力会让布料自然下垂”,然后选择折叠顺序。在一次实验中,某团队让机器人学习叠T恤只用了200次实机操作,就达到了90%的成功率——而此前需要上万次重复编程。

从模拟到现实的“最后一米”

不过世界动作模型目前仍面临两座大山:一是数据获取成本。家务场景的物理交互数据极度稀缺,虽然仿真可以生成大量训练样本,但“模拟器到现实”的迁移仍存在偏差(比如仿真中鸡蛋壳的破碎阈值是线性的,现实中却受温度影响)。二是安全冗余。模型在99%的场景下表现良好,但剩下1%的异常(如猫突然跳上灶台)可能让预测完全失效。因此当前的主流做法是“模型+规则”混合架构:世界动作模型负责80%的日常决策,而硬编码的紧急刹车逻辑守护剩下的20%。比如“拾光S1”机器人在武汉公寓里做饭时,会先用激光雷达扫描附近是否有宠物,再启动炒菜动作序列。

让机器人学会做家务,本质上不是教它模仿人类动作,而是赋予它一个能不断自我演化的“物理世界认知引擎”。当这个引擎足够稳定,你家厨房里那个系着围裙的金属身影,才能真正做到“不用教,看一遍就会”。