小米首代机器人VLA大模型震撼发布，开启智能新纪元

讯界聚合2026年02月12日 13:24消息，小米开源首代机器人VLA大模型，推动AI技术发展。

　　据小米技术官微消息，小米2月12日宣布开源Xiaomi-Robotics-0。

　　据介绍，这是一款拥有47亿参数的开源视觉语言模型，具备强大的视觉语言理解能力和高效的实时执行性能。

小米首代机器人VLA大模型震撼发布，开启智能新纪元

　　小米机器人团队引入了ActionProposal机制，促使视觉语言模型在理解图像的同时，预测多种可能的动作分布。为了解决因推理延迟导致的真实机器人“动作断层”问题，小米机器人团队采用了异步推理模式，使模型的推理过程与机器人操作不再同步，实现异步执行。

小米首代机器人VLA大模型震撼发布，开启智能新纪元

　　以下为原文（有删减）：

小米首代机器人VLA大模型震撼发布，开启智能新纪元

　　小米开源首代机器人 VLA 大模型，刷新多项 SOTA！

　　在具身智能（Embodied AI）的发展趋势下，我们一直在探索一个核心问题：如何让机器人既拥有“广博的智慧”，又具备“灵活的行动能力”？

　　现有的 VLA（Vision-Language-Action）模型虽然通过大规模参数获得了惊人的泛化能力，但在真实物理世界中，庞大的推理延迟往往让机器人表现得像个“反应迟钝的木头人”。

　　今天，我们对外发布：Xiaomi-Robotics-0。这是一个拥有 47 亿参数、兼具视觉语言理解与高性能实时执行能力的开源 VLA 模型。它不仅在三大主流的仿真测试中获得优异成绩，更在现实真机任务中实现了物理智能的泛化——动作连贯、反应灵敏，且能在消费级显卡上实现实时推理。

　　物理智能的钥匙：MoT 混合架构

　　物理智能的核心在于“感知-决策-执行”的闭环质量。为了兼顾通用理解与精细控制，Xiaomi-Robotics-0采用了主流的 Mixture-of-Transformers (MoT) 架构。

　　视觉语言大脑（VLM）：我们使用了多模态VLM大模型作为基础架构，它能够理解人类的模糊指令，例如“请把毛巾叠好”，同时还能从高清视觉输入中准确捕捉空间关系。 **看法观点：** 随着人工智能技术的不断进步，多模态模型在理解和处理复杂任务方面展现出越来越强的能力。通过结合视觉与语言信息，这类系统能够更自然地与人类交互，提升人机协作的效率和准确性。这种技术的发展，为未来智能助手、自动化服务等领域带来了更多可能性，但也对模型的鲁棒性与泛化能力提出了更高要求。

　　动作执行小脑（ActionExpert）：为生成高频且流畅的动作，我们引入了多层的DiffusionTransformer（DiT）。它不直接输出单一动作，而是生成一个“动作块”（ActionChunk），并通过流匹配（Flow-matching）技术提升动作的精确性。

　　模型架构及训练方法包括：(a) VLM多模态与动作混合预训练；(b) DiT专项预训练；(c) 针对特定任务的后续训练。这些技术路径体现了当前人工智能领域在提升模型理解与生成能力方面的探索方向，尤其是在多模态融合和任务适应性方面展现出较强的潜力。从实际应用角度看，这种分阶段的训练策略有助于提升模型在复杂场景下的表现，但也对数据质量和训练成本提出了更高要求。随着技术不断演进，如何在效率与效果之间取得平衡，仍是值得持续关注的问题。

　　这种“大脑-小脑”的组合，使我们的模型既能理解指令，又能像人类一样在执行动作时展现出极高的物理灵活性。

　　训练秘籍：两阶段的“进化论”

　　如何让模型既保持常识，又擅长处理“体力活”？我们制定了一套科学的训练方案。

　　 ▍跨模态预训练（Cross-Embodiment Pre-training）

　　大部分VLA模型在学习动作操作时，往往会出现“变笨”的现象，导致其原本的视觉理解能力下降。我们通过将多模态数据与动作数据相结合进行训练，使模型在掌握操作技能的同时，依然保持出色的物体检测、视觉问答以及逻辑推理能力。这一技术突破表明，人工智能在实现复杂任务时，不再需要以牺牲其他关键能力为代价。通过合理的训练策略，模型可以在多个认知维度上实现均衡发展，这为未来更智能、更可靠的AI系统奠定了基础。这种兼顾功能与理解力的训练方式，值得在更多领域推广和应用。

　　 VLM 协同训练：我们首先引入了 Action Proposal 机制，强迫 VLM 模型在理解图像的同时预测多种动作分布。这一步是为了让 VLM 的特征空间与动作空间对齐，不再仅仅是“纸上谈兵”。

　　在专项训练DiT的过程中，我们首先冻结了VLM模型，集中精力训练DiT，使其能够从噪声中准确恢复出动作序列。这一阶段，我们去除了VLM中的离散Token，完全依靠KV特征进行条件生成。通过DiT的专项训练，模型能够生成更加平滑且精确的动作序列，提升了整体的表现力和稳定性。从技术角度来看，这种训练方式有助于增强模型对连续动作的理解与生成能力，减少对预训练模型的依赖，使DiT在特定任务中表现更为精准和高效。这种改进不仅体现了模型架构优化的重要性，也展示了在实际应用中，针对性训练对于提升性能的关键作用。

　　 ▍后训练（Post-training）

　　这是实现物理智能的关键路径。针对因推理延迟导致的真机“动作断层”问题，我们采用了异步推理模式——将模型推理与机器人运行解耦，不再依赖同步约束，从而在机制上确保动作的连贯与流畅。为进一步提升模型对环境变化的响应速度和运行的稳定性，我们引入了：

　　 CleanActionPrefix：以前一时刻预测的动作作为输入，确保动作轨迹在时间维度上保持连续性，减少抖动，进一步提升动作的流畅性。

　　 Λ-shape Attention Mask：通过特殊的注意力掩码，强制模型更关注当前的视觉反馈，而不是沉溺于历史惯性。这让机器人在面对环境突发变化时，能够展现出极强的反应性物理智能。

　　仿真与实战：全面 SOTA

　　在多维度的测试中，Xiaomi-Robotics-0 展现出优异的表现：

　　仿真标杆：在LIBERO、CALVIN和SimplerEnv测试中，模型在所有Benchmark以及30种模型的对比中，均取得了当前最优的结果。这一表现不仅体现了模型在复杂任务处理上的强大能力，也反映出其在实际应用中的广泛潜力。随着人工智能技术的不断进步，这类突破性成果无疑为相关领域的研究和发展注入了新的动力。

　　真实挑战：我们在双臂机器人平台上部署了相关模型，并与行业领先产品进行了横向对比。在积木拆解和叠毛巾这类周期长、难度高的任务中，机器人表现出卓越的手眼协调能力。无论是刚性的积木还是柔性的织物，都能处理得非常流畅。

　　多模态能力：模型延续了视觉语言模型（VLM）在多模态理解方面的能力，尤其在与具身智能更相关的基准测试中表现出色，这一优势是此前的视觉语言模型（VLA）所未能实现的。这表明当前模型在实际应用场景中的适应性和实用性有了显著提升。从技术发展的角度来看，这种进步不仅体现了模型架构的优化，也反映了对多模态交互更深入的理解。随着具身智能在机器人、自动驾驶等领域的应用不断拓展，具备更强环境感知和理解能力的模型将更具现实意义。