灵巧手操作模型长期受困于“数据-硬件”死锁:真机数据稀缺、跨本体不通用、硬件本体未收敛。为突破此瓶颈,行业已形成“预训练基座+后训练适配”的共识路径。例如,NVIDIA的GR00T通过在大量多样的真机数据和合成数据上预训练;
而Being-H作为首个基于大规模人类操作视频预训练的VLA,通过百万级第一人称人类手部视频让模型具备人类灵巧操作先验。
这些基模的核心价值在于:预训练阶段掌握了可泛化的视觉-语言-动作先验知识,使模型具备适应各种任务场景的潜能。
然而,预训练数据无法覆盖所有任务场景和机器人,真实场景中基座模型仅能输出大体正确的规划和动作,无法真正完成任务,仍需后训练解决“最后一厘米”的难题。

在此背景下,BeingBeyond提出了全新的解决方案:Being-Dex,全新预训练-后训练融合框架,实现基模在机器人真机上30分钟学会新任务。
用互联网视频训练通用人形机器人大模型
Being-Dex的后训练阶段以Being-H预训练基座为起点,通过“后训练数据采集-模型在线学习-实时部署验证”的闭环系统,在30分钟内实现新任务从数据采集到自主完成的全流程,完成对未知场景、未知任务、未知物体进行在线学习和快速部署,成功率达90%以上,实现具身基础模型在真实机器人上的快速进化。
相比传统VLA的数采-清洗数据-离线后训练范式,Being-Dex大幅提高了学习效率和任务成功率。
效率大幅提升的结果源自Being-Dex闭环架构:通过"预训练打基础、后训练快迭代"的协同机制,实现持续进化能力、硬件适配性、场景及任务适配性三大维度的突破性优势:
持续进化能力:从"经验学习"到"自我迭代"的质变
Being-Dex通过在线训练机制,有效利用遥操作数据,结合Being-H的预训练快速学习策略 。
值得一提的是,在遥操过程中,人类只采集完成任务的成功数据,而基于Being-H的后训练可以让策略收敛后泛化至视觉覆盖区域内物体任意摆放组合及位置。
这种进化能力使机器人学习新技能的成本大幅压缩——从超过一天的数采、训练迭代缩短至30分钟级,且训练数据量降至几十条,实现"学得越来越快"的智能跃迁。
硬件适配性:预训练基座向下兼容,后训练动态适配
预训练阶段(Being-H基座)学习的是人手视频,因此其构型可以映射到机器人本体,覆盖市面大部分主流硬件平台,适配任意形态大小手指数量的灵巧手,解决数据通用性难题。
场景与任务双适配:从基础技能到专用能力的无缝扩展
预训练基座掌握的"通用语言到动作映射"(如抓握、推拉、旋转等基础操作),使模型具备跨场景的初步能力。
后训练阶段则通过场景化数据采集与任务导向训练,实现从通用基座到专用技能的跃迁——例如在精密装配场景中,模型会针对性强化6D位姿估计精度;在柔顺抓握不规则物体时,则优化抓取点策略。这种双适配能力使机器人能快速适应工业装配、家庭服务等多元场景,实现"即插即用"的泛化部署。
关于智在无界:
智在无界团队开创互联网视频规模化训练通用人形机器人的范式,构建了从多模态感知和姿态生成(Being-M系列),手部动作生成(MEgoHand),到人形机器人、灵巧手真机控制的全栈技术闭环。团队构建的全球最大千万级人体姿态数据库和第一视角手部数据集,正成为驱动行业发展的核心基础设施。公司专注通用人形机器人模型研发,致力于通过互联网视频数据与多模态大模型赋予机器人人类级操作与运动技能,为机器人本体厂商及落地场景客户提供高泛化技术解决方案。