对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
运动能力|机器人感知|VLA端到端模型|家务任务|人形机器人|具身智能|人工智能
2026年北京半马赛道上,一台人形机器人以50分26秒冲线,把人类世界纪录甩在身后。但就在同一年春天,当它换上保洁服走进普通家庭,叠一件T恤要花10分钟,遇到门槛就原地卡壳,连晾衣服都得靠人类搭把手。
这不是某台机器人的失误,而是整个行业的尴尬:我们能造出跑得比人快的“运动员”,却造不出能独立打扫房间的“清洁工”。问题的核心不在手脚——机器人的“小脑”早已能完成武术、舞蹈这类复杂动作——而在还没发育成熟的“大脑”:它能听懂指令,却看不懂真实世界的逻辑。
为了让机器人学会“思考”,全球研究者走了三条截然不同的路。
最成熟的是VLA端到端模型——你可以把它理解成机器人的“条件反射系统”:把视觉看到的画面、人类说的指令混在一起,直接生成动作。比如你说“拿杯水”,它见过杯子就能递过来,就像我们记熟了题目的标准答案。但这套系统的局限也很直白:遇到没练过的“新题”,比如杯子放在装满杂物的柜子最上层,它立刻就会“卡壳”,甚至对着空气乱伸手。Google的RT-2模型用13万条机器人示范数据训练,新物体操作性能才提升63%,离“举一反三”还差得远。
另一条更接近人类思考的是世界模型路线。它要让机器人在脑子里建一个“虚拟世界”,理解重力、摩擦力这些物理规律——比如杯子掉下来会碎,所以要伸手去接。但这套系统的门槛高得吓人:英伟达的Cosmos模型光是训练就用了9000万亿个数据Token,相当于把人类所有的物理课本、实验视频甚至生活常识都喂给它,成本高到只有少数巨头能玩得起。
国内企业则走出了第三条“大小脑分层”的路:用大语言模型当“大脑”负责听懂指令、做决策,用VLA模型当“小脑”负责抬手、走路这些动作。好处是能先用已有的“小脑”技术积累快速落地,但代价是“大脑”和“小脑”之间总存在信息延迟——就像领导发了命令,下属要反应半天才能执行,遇到需要快速调整的精细动作,比如捏起一颗易碎的鸡蛋,很容易搞砸。

单靠实验室里的模拟训练,永远补不上“大脑”的短板——真实世界的复杂程度,是任何模拟器都复制不出来的:家里的拖鞋可能随便乱摆,工厂的流水线可能突然卡壳,景区的游客可能突然挡住去路。
于是企业开始把机器人往真实场景里送:有的去景区当“实习生”,跟着工作人员学带路、讲解;有的去家庭当“保洁助理”,跟着阿姨学擦桌子、叠衣服;还有的直接扎进仓库,每天和快递箱子打交道。它们不是去干活的,是去“攒经验”的——每一次卡壳、每一次失败,都会变成数据喂给“大脑”模型,让它下次遇到类似情况能反应得更快一点。

自变量机器人的CTO举过一个例子:机器人在泳池里练10年游泳,扔到大海里还是会慌,但如果让它直接去大海里扑腾,哪怕一开始会呛水,几次之后就能学会应对海浪。现在他们的机器人正在跟着58同城的保洁阿姨上门服务,虽然叠衣服要10分钟,但每叠一次,模型里关于“布料褶皱”“折叠角度”的数据就更精准一分。
这种“边干边学”的模式正在改变行业的资本逻辑:过去大家比谁的机器人跑得更快、跳得更高,现在投资者盯着的是哪家机器人的“大脑”数据更多、泛化能力更强——毕竟硬件的门槛会随着供应链成熟慢慢拉平,但“大脑”里的经验,是用钱也买不来的壁垒。
这场补“大脑”的竞赛里,不同国家的选手拿着不同的“解题手册”。
美国的企业和实验室更擅长从底层算法突破:OpenAI、Google DeepMind这些巨头手里握着最先进的大语言模型和最多的训练数据,他们的目标是先造出最聪明的“大脑”,再给它配身体。比如Google的RT-2模型,直接把动作生成当成语言问题来解决,让机器人能像理解句子一样理解动作序列。
中国的企业则更务实,走的是“场景优先”的路线:先找一个具体的需求——比如工厂搬运、家庭保洁——再针对性地补“大脑”的短板。国内的供应链优势让我们能快速造出便宜可靠的机器人“身体”,而庞大的市场又能提供源源不断的真实场景数据,这种“从场景到模型”的路径,反而可能让我们在落地速度上领先一步。
欧洲和日本则在另一个维度发力:他们更关注机器人的“安全性”和“伦理”。欧盟的《人工智能法》已经开始对机器人的决策逻辑做严格要求,日本则在研究如何让机器人更懂人类的社交规则——比如什么时候该说话,什么时候该闭嘴。毕竟再聪明的机器人,如果不能被人类信任,也只能待在实验室里。
跑赢人类的那天,我们以为机器人已经离“智能”不远了;但当它在门槛前卡壳、在叠衣服时发呆,我们才发现,真正的智能从来不是“比人快”,而是“懂世界”。
未来的机器人不会是赛场上的“冠军”,而是厨房里的“帮手”、工厂里的“同事”、家里的“家人”。它们可能永远不会像人类一样思考,但只要能看懂掉在地上的杯子、听懂模糊的指令、适应乱糟糟的真实世界,就已经足够改变我们的生活。
能跑赢人类的是机器,能看懂生活的才是智能。