加入收藏 | 设为首页 | 会员中心 | 我要投稿 | RSS
您当前的位置:首页 > 机器人

小米于2026 年 2 月 12 日正式发布并开源Xiaomi-Robotics-0

时间:2026-02-12 18:41:47  来源:  作者:
小米于2026 年 2 月 12 日正式发布并开源Xiaomi-Robotics-0,这是一款47 亿参数视觉语言动作(VLA)机器人基座模型,主打通用理解 + 实时动作执行,可在消费级显卡上跑实时推理,在三大仿真基准中拿下全项 SOTA。

一、核心信息速览

  • 发布时间:2026 年 2 月 12 日
  • 模型定位:开源 VLA(视觉 - 语言 - 动作)基座模型
  • 参数规模47 亿参数
  • 核心能力:理解模糊指令 + 生成流畅、精准的物理动作
  • 部署门槛消费级显卡即可实时推理
  • 开源范围:代码、权重、技术文档已开放

二、核心架构:大脑 + 小脑(MoT 混合架构)

模型采用Mixture-of-Transformers(MoT),模拟人脑 “感知决策 + 运动控制” 双系统:
  1. 视觉语言大脑(VLM)
    • 理解模糊自然指令(如 “把毛巾叠好”)
    • 从高清视觉中提取空间关系、物体属性
    • 保留通用多模态能力(检测、问答、推理)
  2. 动作执行小脑(Action Expert)
    • 基于Diffusion Transformer(DiT)
    • 输出 ** 动作块(Action Chunk)** 而非单步动作
    • 用 ** 流匹配(Flow-matching)** 保证精度(误差≤0.3mm)

三、关键技术突破

  • 异步推理 +Λ-shape 注意力掩码解决推理延迟导致的 “动作断层”,让推理与机器人运行异步执行;强制模型聚焦当前视觉反馈,中断响应时间 **<80ms**。
  • 两阶段训练
    1. 跨模态预训练:混合视觉 - 语言 + 动作数据,对齐语义与动作空间
    2. 后训练:冻结 VLM,专注训练 DiT 生成精准动作序列
  • 海量训练数据
    • 2 亿 + 机器人轨迹数据
    • 8000 万 + 通用视觉 - 语言样本
    • 专项数据:338 小时乐高拆解、400 小时毛巾折叠

四、性能表现

  • 仿真测试:在LIBERO、CALVIN、SimplerEnv三大基准中,所有细分项 SOTA
  • 真机任务:积木拆解、毛巾折叠等长周期任务,手眼协调稳定、动作流畅
  • CALVIN 长周期任务完成率92%(行业平均约 67%)

五、行业意义

  • 从硬件走向算法核心,补齐小米机器人 “大脑”
  • 拉低具身智能落地门槛:消费级显卡即可部署
  • 开源推动生态,加速家用 / 服务机器人的实用化
来顶一下
返回首页
返回首页
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
推荐资讯
Tabbit AI 浏览器代码争议
Tabbit AI 浏览器代码
Optimus 愿景: 马斯克称人形机器人为“无限印钞机”。
Optimus 愿景: 马斯克
相关文章
    无相关信息
栏目更新
栏目热门