首个端到端强化学习具身模型PsiR0，横空出世!-配资天眼

近日，灵初智能发布首个基于强化学习（RL）的端到端具身模型Psi R0。该模型支持双灵巧手协同进行复杂操作，将多个技能串联混训，生成具有推理能力的智能体，从而完成并闭环长程灵巧操作任务。并且，Psi R0还可以实现跨物品、跨场景级别的泛化。

真实世界中，人类生活近乎100%的场景涉及抓握、转动、捏取、触摸等操作，而其中超过 90% 的操作属于多技能融合的长程任务。然而在当下具身业界，多局限于Pick and Place操作的泛化，一旦任务复杂化、长程化，泛化性和成功率则大大降低，无法兼顾——这也是具身智能只能存在于demo，迟迟无法在真实场景中落地的核心原因！机器人如何突破Pick and Place、脱离遥操作，拥有自主完成长程灵巧操作的能力，实现真正类人的场景级任务闭环，仍是具身智能亟待攻克的难题。

RL是长程灵巧操作实现任务闭环的唯一解

在真实世界中，机器人解决长程任务必须通过Learning-based模式，目前主流技术路径有两种：模仿学习（IL）和强化学习（RL）。

纯模仿学习的泛化能力受限于示范行为的多样性和质量。加之长程任务步骤较多，更容易出现分布漂移问题，使得 IL实现长程任务的泛化性能较差，鲁棒性也较弱。

基于RL的Psi R0 模型，使用海量仿真数据高效训练出双手操作的智能体，并通过双向训练框架串联多技能，在业界率先完成开放环境中的长程任务，具备较强的泛化能力与较高的鲁棒性。这一技能训练框架从物体时空轨迹抽象出关键信息以构建通用目标函数，从而解决奖励函数难设计的问题。在后训练阶段，通过少量高质量真机数据对齐，进一步提升长程任务的成功率。除此之外，双向训练框架中的转移可行性函数发挥着重要作用，它能够微调技能以提高串联的成功率与泛化性，同时赋予模型自主切换技能的能力，使其在遭遇操作失败时能够迅速调整策略，确保高成功率。

Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation

Yuanpei Chen, Chen Wang*, Li Fei-Fei, C. Karen Liu

Psi R0 模型表现出的灵巧性、高成功率以及泛化性，充分展示了其大脑的任务拆解与规划能力，以及小脑的灵巧操作、泛化和鲁棒能力。这一模型的诞生，突破了当前具身机器人在商业化应用进程中所面临的核心技术瓶颈，为整个行业的未来发展开拓出一片全新且广阔的天地，有望引领具身机器人迈向全新的发展阶段。

从理论概念到有效落地，Psi R0解答了具身智能商业化的终极命题

长程任务灵巧操作场景无处不在，从工厂产线组装，到服务业的拣货打包，到家居环境的清洁整理。

Psi R0模型的智能体展示了其强大的场景落地能力。以电商场景为例，商品打包是典型的长程任务作业，需对上万件商品进行抓取，扫码，放置，塑料袋打结等多个操作。Psi R0能够使用双灵巧手流畅地完成这一系列动作（此系列动作在客户现场可以取代一个完整工位），成为首个基于强化学习训练完成长程灵巧操作任务的具身机器人。

视频中，机器人系统接收到的指令仅仅是“将桌面的物体打包”，而这一看似简单的任务背后，是灵初智能极具创新性的端到端技术架构在发挥作用。当指令下达后，上层视觉语言模型（VLM）对桌上混乱摆放的商品进行分析，编排出商品的操作顺序，下层操作模型拆解出单个商品的子任务，如抓取、放置、扫码、打包等，智能体依次执行。

抓取环节，面对随意摆放、形状各异的商品，模型必须具备高度的泛化能力，才能成功完成商品的逐个抓取。视频中展示的品客薯片，Psi R0 仅仅依靠 20 条真机数据，模型就成功实现了99%+的成功抓取率。

扫码环节更是考验机器人的灵巧操作水平，需要双手高度精细地协调彼此相对位置，以确保扫码枪与商品条码能够精准对齐，任何细微偏差都可能导致扫码失败。此时，RL训练策略为双手双臂构成的高自由度复杂系统提供了可靠的实时闭环控制，保障扫码动作精准流畅地完成。

打包环节，需要双手协调完成对塑料袋的灵巧操作。在动态打包的过程中，塑料袋的形状会随动作变化，需要实时调整操作。为了提升机器人对柔性物体的操作适应能力，Psi R0在仿真环境中模拟多种柔性物体的操作场景，同时结合真机数据进行微调优化。甚至在被打断、干扰的情况下，也能自适应调整策略，重新进行打包动作。

灵初智能Psi R0模型是具身智能递归性成长的第一步。具身智能将遵从从简单到复杂、从保护到协同的渐进式演进。在早期，小脑是与真实世界交互的物理基础，其设计需结合领域知识，满足环境中的约束条件，同时具备容错性，支持大脑学习与优化。Psi R0模型发挥RL算法探索的优势，支持小脑的快速迭代，生成支持长程灵巧操作的智能体。通过灵巧操作转动数据飞轮，实现从小脑Action到大脑Cognition的闭环回馈，驱动大脑认知能力优化，模型持续迭代，形成小脑协同+大脑优化的具身智能“神经回路”，使端到端模型完成从简单到复杂、从保护到协同的渐进式演进。

本文来源：财经报道网

首个端到端强化学习具身模型PsiR0，横空出世!

请登录