从数字到物理:阿里发布“千问”具身智能大模型,为机器人装上灵巧手与认路脚


来源:纵横网 浏览量(2719) 2026-06-17 17:31:58

纵横网6月17日讯 随着全球科技巨头在“物理AI”(Physical AI)这一全新赛道上的竞争白热化,大模型正加速从虚拟的屏幕走向现实的物理世界。

6月16日,阿里巴巴正式推出千问具身智能大模型 Qwen-Robot 系列。这是千问大模型家族首次推出完整的具身智能(Embodied AI)模型体系,旨在为不同形态的机器人提供一套能够理解并执行复杂现实世界任务的“通用底座”。

从数字到物理:阿里发布“千问”具身智能大模型,为机器人装上灵巧手与认路脚_https://www.izongheng.net_互联网_第1张

“三连发”布局:拼出物理智能体的核心拼图

据阿里方面介绍,新推出的 Qwen-Robot 系列包含三大核心模型。它们分别扮演着为机器人“装上灵巧的手、认路的脚和会思考的大脑”的关键角色:

Qwen-RobotManip(操作模型): 这是一个通用的视觉-语言-行动(VLA)模型。它打破了传统行业高度依赖私有自采数据的常规路径,全程仅基于开源数据进行预训练,训练时长超过3.8万小时。该模型解决了机器人跨场景迁移的行业难题,具备极强的开箱即用和自适配能力。在第三方真机测评 RoboChallenge Table30 v1 中,代号为“Lira”和“Atlas”的两个版本直接包揽了全球榜单的前两名。

Qwen-RobotNav(导航模型): 这是一个可扩展的视觉-语言导航(VLN)模型。它基于 Qwen-VL 构建,将语言指令导航、目标搜索、自动驾驶等五大任务族统一到单个框架中。针对传统导航模型“记少迷路、记多混乱”的硬伤,该模型创新推出了任务自适应观察机制,并被设计为通用接口,可由上层大模型(如 Qwen3.7-Plus)动态调用,让机器人真正做到“边走、边看、边思考”。

Qwen-RobotWorld(世界模型): 这是一个为具身智能设计的视频世界模型。基于对物理规律的深度理解,它能够推理并模拟出下一个时间点机器人的合理动作与环境状态。在实际应用中,它既能通过生成 photorealistic(照片级逼真)的视频数据来缓解训练数据荒,也能在执行动作前帮助机器人推演未来的动作轨迹,实现“三思而后行”。

目前,这套大模型已在机器人行业的部分阿里云企业客户中,正式进入真实场景的试点测试。例如,在搭载该系统的宇树 Go2 四足机器狗测试中,用户只需下达“帮我找找不记得放在哪的行李箱”这种模糊的自然语言指令,机器狗即可自主巡逻并进行视觉推理,顺利完成寻物导航。

商业生态战:重塑云业务的第二增长曲线

行业观察人士指出,当前中国大模型市场正呈现出明显的两极分化走势。一方面,以月之暗面(Moonshot AI)和稀宇科技(MiniMax)为代表的“AI新势力”初创公司,在大语言模型(LLM)的长文本和C端应用上高歌猛进;另一方面,以阿里巴巴、百度为代表的科技巨头,则将目光投向了更具商业壁垒的硬核生态建设。

巨头们正试图围绕 AI 打造一个“从底层算力芯片、AI框架、数字智能体到物理具身智能”的闭环全栈生态。

这种战略转型的背后,蕴含着清晰的商业变现逻辑。阿里巴巴首席执行官吴泳铭(Eddie Wu)在今年早些时候曾明确表示,阿里巴巴预计,与 AI 相关的产品收入将成为其云计算业务收入增长的主要驱动力

随着 Qwen-Robot 系列的发布,阿里云不仅能向传统企业售卖计算资源,更能直接输出能够“改造物理世界”的AI基建。将千问大模型从数字世界(Digital Agent)引向物理世界(Physical Agent),正是阿里在这场万亿级云业务“卡位战”中,祭出的又一记重拳。







THE END

版权声明:未经纵横网授权,严禁转载或镜像,违者必究。
特别提醒:如果文章内容、图片、视频出现侵权问题,请与本站联系撤下相关作品。
风险提示:纵横网呈现的所有信息仅作为学习分享,不构成投资建议,一切投资操作信息不能作为投资依据。本网站所报道的文章资料、图片、数据等信息来源于互联网,仅供参考使用,相关侵权责任由信息来源第三方承担。
本文地址:

最新文章

更多>