2025-03-12 中国 来源:其他 作者:刘纪铖 领域:信息
关键词:
据品玩网3月11日消息,中国智元机器人公司发布首个通用具身基座模型“智元启元大模型”(Genie Operator-1)。该模型开创性地提出了Vision-Language-Latent-Action(ViLLA)架构,由VLM(多模态大模型)+MoE(混合专家)组成。其中,VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力,实现了利用人类视频学习完成小样本快速泛化,降低了具身智能门槛,现已成功部署到智元多款机器人本体以持续进化。