北京人形登顶 WorldArena 双冠,具身「大模型」范式确立
2026 年 5 月,北京人形机器人创新中心发布 Pelican-Unify 1.0,在 WorldArena 全球权威评测中 EWM Score 达到 66.03 登顶榜首,3D Accuracy 拿下 98.12 分(接近满分),同时此前发布的 WoW 具身世界模型已登顶 WorldArena Data Engine 赛道,北京人形由此成为全球首个 WorldArena 双冠王机构。
核心技术:「三统一」架构
Pelican-Unify 1.0 是「慧思开物」平台的首个「大一统」具身基础模型,核心在于将理解、推理、想象、行动整合为同一训练过程,而非模块拼接:
- 统一编码器(VLM):基于 Qwen3-VL 4B,负责将观测序列、历史动作序列、语言指令编码进共享语义空间,自回归生成思维链推理迹后压缩为潜变量 z
- 统一未来生成器(UFG):基于 Wan2.2-5B 扩散 Transformer,在同一去噪过程中联合生成未来视频帧和低层动作序列,视频 token 与动作 token 在每一步相互感知、相互约束
- 三路损失协同:语言推理损失、视频流匹配损失、动作预测损失同时优化,使推理、想象、行动的一致性通过梯度博弈自然涌现
在 RoboTwin 双臂操作 50 任务基准上,平均成功率达 93.5%,其中 15 个任务达 100%,覆盖插拔、堆叠、交接等不同类型;在零样本组合泛化测试中,仅凭原子任务训练数据即可完成两段连续任务的自然语言指令执行。
北京人形此前已与福田康明斯合作,在无人生产线上完成料箱取放与搬运,2026 年 2 月完成超 7 亿元首轮市场化融资,投资方包括北京市人工智能产业投资基金、百度、东土科技等。
值得关注的原因:Pelican-Unify 代表了具身智能从「功能拼凑」到「闭环智能」的范式跃迁——当推理塑造想象、想象约束行动、行动结果反哺推理,整个回路是能力的乘积而非叠加。这与中国 2030 年具身智能 4000 亿、2035 年破万亿的市场空间直接挂钩,是具身智能从实验室走向工业量产的里程碑节点。
Figure AI 机器人实现物流场景连续自主分拣
与此同时,全球另一具身智能劲旅 Figure AI 的人形机器人在真实物流传送带上完成了连续几十小时的不间断包裹分拣直播,全程依靠自身视觉系统完成识别、抓取、分拣全套动作,无需人工干预或预设程序引导。
这一场景标志着具身智能进入基于模型的端到端推理阶段——机器人不再依赖预设程序,而是通过视觉感知实时推理动作序列,并基于执行反馈持续调整。这与北京人形的 Pelican-Unify 路线高度一致:端到端统一模型替代模块化拼接,是 2026 年具身智能行业的主流技术共识。
值得关注的原因:Figure AI 的直播是具身智能从实验室走向真实工业场景的首次大规模公众见证,连续几十小时稳定运行证明当前具身智能已具备工业级可靠性。这一进展与北京人形形成中美双寡头的技术竞争格局,共同推动具身智能进入商业化临界点。
理想李想首提「上下半场」:自动驾驶决定人形机器人入场资格
2026 年 5 月 15 日,理想汽车发布全新旗舰车型 L9 Livis,董事长李想在会上首次系统阐述其对具身智能演进的核心判断:「自动驾驶是具身智能的上半场,通用人形机器人是具身智能的下半场。」
五万亿美金市场与能力迁移路径
李想指出,自动驾驶汽车与通用人形机器人在本质上是同一物种——物理世界的机器被赋予感知、模型与处理器后能自主工作。两者共享五项核心能力:感知(眼睛)、决策(大脑)、计算(心脏)、控制(手脚)、操作系统(神经系统)。
这意味着上半场积累的感知模型、决策大模型、车规级芯片、线控底盘与车载操作系统,将以人形机器人形态延续产品生命力。理想汽车 2026 年研发投入约 120 亿元,AI 相关占五成;其 L9 Livis 搭载自研 5nm 马赫 M100 芯片(双颗算力 2560TOPS)、3D ViT 感知模型(前向感知 300 米)、马赫 VLA 多模态思考模型和自研星环 OS 操作系统,具身智能底座已现雏形。
演进时间轴
| 阶段 | 时间 | 能力节点 |
|---|---|---|
| 上半场 | 2028-2033 | L4 级无人驾驶 |
| 下半场 | 2030-2035 | 人形机器人达 6 岁泛化能力 |
| 下半场 | 2035-2040 | 人形机器人达 12 岁泛化能力 |
| 下半场 | 2040 年前后 | 接近 AGI 水平,18 岁泛化能力 |
值得关注的原因:李想的判断揭示了当前人形机器人公司频繁从自动驾驶团队挖人的深层逻辑——这是产业上下游之间的能力迁移而非简单人才流动。对投资者而言,判断一家企业能否进入下半场,关键看其核心技术底座的可迁移性,而非当前的机器人本体销量。
Claude Opus 4.7 发布,AI 模型竞争持续加速
Anthropic 于 2026 年 5 月 12 日发布 Claude Opus 4.7 (Fast),继续推进其 Claude 4 系列的迭代节奏。同期 OpenAI 宣布将于 5 月 15 日发布 ChatGPT 重大更新,卡内基梅隆大学研究人员基于真实 Google V8 引擎漏洞的基准测试显示,Claude Mythos 在 AI 代理利用漏洞能力上大幅领先 GPT-5.5。
本月 AI 领域新增模型已达 39 个,阿里以 5 个新模型位居 30 天发布榜首(最新 Qwen3.5 Plus),OpenAI 以 4 个新模型紧随其后。AI 模型进入「月更」甚至「周更」节奏,开发者生态的适配压力持续上升。
值得关注的原因:Claude Mythos vs GPT-5.5 的安全博弈(因能自主发现零日漏洞而拒绝公测)仍在持续,具身智能基座模型的竞争已同步白热化。基座模型的推理能力直接决定机器人在复杂场景下的泛化上限,是具身智能产业链最核心的卡脖子环节。