您当前的位置：首页 > 机器人

小米于2026 年 2 月 12 日正式发布并开源Xiaomi-Robotics-0

时间：2026-02-12 18:41:47 来源：作者：

小米于2026 年 2 月 12 日正式发布并开源Xiaomi-Robotics-0，这是一款47 亿参数的视觉语言动作（VLA）机器人基座模型，主打通用理解 + 实时动作执行，可在消费级显卡上跑实时推理，在三大仿真基准中拿下全项 SOTA。

模型采用Mixture-of-Transformers（MoT），模拟人脑 “感知决策 + 运动控制” 双系统：

视觉语言大脑（VLM）
- 理解模糊自然指令（如 “把毛巾叠好”）
- 从高清视觉中提取空间关系、物体属性
- 保留通用多模态能力（检测、问答、推理）
动作执行小脑（Action Expert）
- 基于Diffusion Transformer（DiT）
- 输出 ** 动作块（Action Chunk）** 而非单步动作
- 用 ** 流匹配（Flow-matching）** 保证精度（误差≤0.3mm）

异步推理 +Λ-shape 注意力掩码解决推理延迟导致的 “动作断层”，让推理与机器人运行异步执行；强制模型聚焦当前视觉反馈，中断响应时间 **<80ms**。
两阶段训练
1. 跨模态预训练：混合视觉 - 语言 + 动作数据，对齐语义与动作空间
2. 后训练：冻结 VLM，专注训练 DiT 生成精准动作序列
海量训练数据
- 2 亿 + 机器人轨迹数据
- 8000 万 + 通用视觉 - 语言样本
- 专项数据：338 小时乐高拆解、400 小时毛巾折叠

推荐资讯

Tabbit AI 浏览器代码

相关文章

无相关信息

栏目更新

栏目热门