2026年7月2日 星期四

小米首代机器人VLA大模型震撼发布,开启智能新纪元

小米首代机器人VLA大模型震撼发布,开启智能交互新纪元

小米 机器人 VLA 大模型

讯界聚合2026年02月12日 13:24消息,小米开源首代机器人VLA大模型,推动AI技术发展。

   据小米技术官微消息,小米2月12日宣布开源Xiaomi-Robotics-0。

小米首代机器人VLA大模型震撼发布,开启智能新纪元

   据介绍,这是一款拥有47亿参数的开源视觉语言模型,具备强大的视觉语言理解能力和高效的实时执行性能。

小米首代机器人VLA大模型震撼发布,开启智能新纪元

   小米机器人团队引入了ActionProposal机制,促使视觉语言模型在理解图像的同时,预测多种可能的动作分布。为了解决因推理延迟导致的真实机器人“动作断层”问题,小米机器人团队采用了异步推理模式,使模型的推理过程与机器人操作不再同步,实现异步执行。

小米首代机器人VLA大模型震撼发布,开启智能新纪元

   以下为原文(有删减):

小米首代机器人VLA大模型震撼发布,开启智能新纪元

   小米开源首代机器人 VLA 大模型,刷新多项 SOTA!

   在具身智能(Embodied AI)的发展趋势下,我们一直在探索一个核心问题:如何让机器人既拥有“广博的智慧”,又具备“灵活的行动能力”?

   现有的 VLA(Vision-Language-Action)模型虽然通过大规模参数获得了惊人的泛化能力,但在真实物理世界中,庞大的推理延迟往往让机器人表现得像个“反应迟钝的木头人”。

   今天,我们对外发布:Xiaomi-Robotics-0。这是一个拥有 47 亿参数、兼具视觉语言理解与高性能实时执行能力的开源 VLA 模型。它不仅在三大主流的仿真测试中获得优异成绩,更在现实真机任务中实现了物理智能的泛化——动作连贯、反应灵敏,且能在消费级显卡上实现实时推理。

   01

   物理智能的钥匙:MoT 混合架构

   物理智能的核心在于“感知-决策-执行”的闭环质量。为了兼顾通用理解与精细控制,Xiaomi-Robotics-0采用了主流的 Mixture-of-Transformers (MoT) 架构。

   视觉语言大脑(VLM):我们使用了多模态VLM大模型作为基础架构,它能够理解人类的模糊指令,例如“请把毛巾叠好”,同时还能从高清视觉输入中准确捕捉空间关系。 **看法观点:** 随着人工智能技术的不断进步,多模态模型在理解和处理复杂任务方面展现出越来越强的能力。通过结合视觉与语言信息,这类系统能够更自然地与人类交互,提升人机协作的效率和准确性。这种技术的发展,为未来智能助手、自动化服务等领域带来了更多可能性,但也对模型的鲁棒性与泛化能力提出了更高要求。

   动作执行小脑(ActionExpert):为生成高频且流畅的动作,我们引入了多层的DiffusionTransformer(DiT)。它不直接输出单一动作,而是生成一个“动作块”(ActionChunk),并通过流匹配(Flow-matching)技术提升动作的精确性。

   模型架构及训练方法包括:(a) VLM多模态与动作混合预训练;(b) DiT专项预训练;(c) 针对特定任务的后续训练。这些技术路径体现了当前人工智能领域在提升模型理解与生成能力方面的探索方向,尤其是在多模态融合和任务适应性方面展现出较强的潜力。从实际应用角度看,这种分阶段的训练策略有助于提升模型在复杂场景下的表现,但也对数据质量和训练成本提出了更高要求。随着技术不断演进,如何在效率与效果之间取得平衡,仍是值得持续关注的问题。

   这种“大脑-小脑”的组合,使我们的模型既能理解指令,又能像人类一样在执行动作时展现出极高的物理灵活性。

   02

   训练秘籍:两阶段的“进化论”

   如何让模型既保持常识,又擅长处理“体力活”?我们制定了一套科学的训练方案。

   ▍跨模态预训练(Cross-Embodiment Pre-training)

   大部分VLA模型在学习动作操作时,往往会出现“变笨”的现象,导致其原本的视觉理解能力下降。我们通过将多模态数据与动作数据相结合进行训练,使模型在掌握操作技能的同时,依然保持出色的物体检测、视觉问答以及逻辑推理能力。 这一技术突破表明,人工智能在实现复杂任务时,不再需要以牺牲其他关键能力为代价。通过合理的训练策略,模型可以在多个认知维度上实现均衡发展,这为未来更智能、更可靠的AI系统奠定了基础。这种兼顾功能与理解力的训练方式,值得在更多领域推广和应用。

   VLM 协同训练:我们首先引入了 Action Proposal 机制,强迫 VLM 模型在理解图像的同时预测多种动作分布。这一步是为了让 VLM 的特征空间与动作空间对齐,不再仅仅是“纸上谈兵”。

   在专项训练DiT的过程中,我们首先冻结了VLM模型,集中精力训练DiT,使其能够从噪声中准确恢复出动作序列。这一阶段,我们去除了VLM中的离散Token,完全依靠KV特征进行条件生成。通过DiT的专项训练,模型能够生成更加平滑且精确的动作序列,提升了整体的表现力和稳定性。 从技术角度来看,这种训练方式有助于增强模型对连续动作的理解与生成能力,减少对预训练模型的依赖,使DiT在特定任务中表现更为精准和高效。这种改进不仅体现了模型架构优化的重要性,也展示了在实际应用中,针对性训练对于提升性能的关键作用。

   ▍后训练(Post-training)

   这是实现物理智能的关键路径。针对因推理延迟导致的真机“动作断层”问题,我们采用了异步推理模式——将模型推理与机器人运行解耦,不再依赖同步约束,从而在机制上确保动作的连贯与流畅。为进一步提升模型对环境变化的响应速度和运行的稳定性,我们引入了:

   CleanActionPrefix:以前一时刻预测的动作作为输入,确保动作轨迹在时间维度上保持连续性,减少抖动,进一步提升动作的流畅性。

   Λ-shape Attention Mask:通过特殊的注意力掩码,强制模型更关注当前的视觉反馈,而不是沉溺于历史惯性。这让机器人在面对环境突发变化时,能够展现出极强的反应性物理智能。

   03

   仿真与实战:全面 SOTA

   在多维度的测试中,Xiaomi-Robotics-0 展现出优异的表现:

   仿真标杆:在LIBERO、CALVIN和SimplerEnv测试中,模型在所有Benchmark以及30种模型的对比中,均取得了当前最优的结果。这一表现不仅体现了模型在复杂任务处理上的强大能力,也反映出其在实际应用中的广泛潜力。随着人工智能技术的不断进步,这类突破性成果无疑为相关领域的研究和发展注入了新的动力。

   真实挑战:我们在双臂机器人平台上部署了相关模型,并与行业领先产品进行了横向对比。在积木拆解和叠毛巾这类周期长、难度高的任务中,机器人表现出卓越的手眼协调能力。无论是刚性的积木还是柔性的织物,都能处理得非常流畅。

   多模态能力:模型延续了视觉语言模型(VLM)在多模态理解方面的能力,尤其在与具身智能更相关的基准测试中表现出色,这一优势是此前的视觉语言模型(VLA)所未能实现的。这表明当前模型在实际应用场景中的适应性和实用性有了显著提升。 从技术发展的角度来看,这种进步不仅体现了模型架构的优化,也反映了对多模态交互更深入的理解。随着具身智能在机器人、自动驾驶等领域的应用不断拓展,具备更强环境感知和理解能力的模型将更具现实意义。

相关阅读

5G秒级预警精准触达,中国信通院引领广播新纪元
安卓17震撼发布:一句话操控App,智能体验再升级
九月旗舰芯片大乱斗:华为苹果高通联发科同台争锋
苹果 iPhone 18 Pro/Max 震撼曝光:灵动岛瘦身25%,C2卫星5G基带来袭

发表评论

请输入您的姓名
请输入有效的邮箱地址
请填写评论内容

IT资讯栏目

讯界聚合IT资讯栏目为您提供第一时间的新闻报道、深度分析和独家视角。

即时资讯

全天候更新热点事件,第一时间传递重要新闻

深度分析

专业团队解读事件背景与深层影响

24小时热文

iPad全系列选购指南:如何用最低价入手最值得的型号?
2026-05-14 10:38

iPad全系列选购指南:这些型号用最低价也能买得最值!

OPPO、小米强势发声:7月1日前未适配Android 17应用或将面临下架危机
2026-05-14 09:11

OPPO、小米强硬表态:7月1日后未适配Android 17应用将遭全面下架

小米17 Max震撼发布:徕卡2亿像素主摄+8000mAh超大电池引领旗舰新标杆
2026-05-14 09:11

徕卡加持,8000mAh续航破界:小米17 Max重新定义旗舰手机新高度

刘炽平独家回应裁员传闻:腾讯稳舵前行,与硅谷激进收缩划清界限
2026-05-14 09:10

稳舵不是慢航!刘炽平首度亮剑:腾讯拒绝硅谷式断臂,以结构性升级替代粗暴裁员

轻如羽,智如锋!联想YOGA Air 14 Ultra明日登场:975g全球最轻14英寸触控旗舰,5月19日颠覆笔记本定义
2026-05-14 09:09

全球首款羽感超轻AI触控旗舰!联想YOGA Air 14 Ultra明日发布:975g重新定义14英寸性能边界,5月19日开启笔记本新纪元

大疆618大促震撼来袭:无人机直降2500元,影像装备全面降价!
2026-05-14 09:09

大疆618狂降2500元!无人机与影像装备开启史无前例的狂欢价

苹果新CEO热衷赛车,或掀Apple TV战略新篇章
2026-04-23 13:50

苹果新CEO痴迷赛车,或引爆Apple TV竞技新生态

一加15T震撼登场!ColorOS 16正式发布,五年四大版本更新引领新潮流
2026-04-23 12:14

一加15T搭载ColorOS 16,五年系统更新打造旗舰新标杆

TCL华星屏首登REDMI K90 Max:1.5K 165Hz高刷+1nit超低亮度,护眼新标杆!
2026-04-23 12:13

REDMI K90 Max首搭TCL华星屏:1.5K 165Hz高刷+1nit超低亮度,重新定义护眼新标准

5G-A极速上行,中国移动创1Gbps速率新纪录
2026-04-23 12:12

5G-A极速上行突破极限,中国移动实现1Gbps速率新飞跃

友情链接

与优秀科技平台合作,共同构建创新数字生态

合作伙伴持续增加中,期待与更多优秀平台建立联系