对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
家庭操作数据|许华哲|泛化能力|数据采集手套|家庭服务机器人|具身智能|人工智能
2026年4月,硅谷一家公司的机器人突然把精细家务的成功率从64%拉到了99%——不是靠更精密的机械臂,而是给AI喂了足够多的真实家庭操作数据。几乎同时,另一家硅谷公司把机器人直接送进用户家叠衣服、冲咖啡,靠一套戴在手上的「数据采集手套」解决了训练数据的难题。大洋彼岸,曾把公司做到200亿估值的许华哲,在事业巅峰选择单飞,他要造的不是工厂里拧螺丝的机器人,是能在你家完成完整洗衣流程的「真·家庭助理」。为什么整个行业突然把宝押在了乱糟糟的家庭场景?答案藏在一个被反复提及的词里:泛化能力——让机器人能适应没见过的环境、完成没练过的任务,而不是只会重复预设动作。
过去的机器人学做家务,得先把视觉信息转成语言描述,再把语言指令转成动作——就像你给一个完全不懂中文的人做饭,要先把菜谱翻译成英文,再让他按步骤做,中间每一层转换都会丢信息,更别说应对家里突然移位的杯子、换了包装的洗衣液。

许华哲的团队直接跳过了语言这层中间件,他们给AI喂的是「视频+动作」的配对数据:比如人叠衣服的第一视角视频,同步对应着手臂、手指的运动轨迹。你可以把这个过程想象成学跳舞——不是看文字教程记动作,是对着镜面反复模仿老师的连贯动作,连肌肉的发力节奏都一起学。
这种「视频-动作世界模型」的核心是一个叫UAG的并联训练架构:先单独把所有动作数据练熟,再和视觉模型一起联合训练。一个小时的视频数据是海量的像素,但一个小时的动作只是关节的一串浮动数值——这种方式把训练效率拉快了5倍以上,还能最大程度保留AI的泛化能力,让它能看懂没见过的衣服褶皱,调整没练过的叠法。

光靠模仿人类还不够——人类叠衣服的动作未必是机器人最顺手的,而且家里总会出现没见过的情况。许华哲的团队把强化学习贯穿了训练的全过程,这相当于给机器人装了个「自我复盘」的大脑。
传统的机器人强化学习只在最后调参数用,他们却把离线强化学习放进了预训练阶段:AI会一边看人类的示范数据,一边自己在虚拟环境里试错,比如叠错了衣服、碰倒了杯子,系统会用「价值函数」给这些失败样本打分,告诉AI「这样做不对,为什么不对」。就像你学骑车,摔过几次才知道怎么保持平衡,AI也会从失败里记住哪些动作会导致任务崩盘。
更关键的是,这种方式能让机器人突破人类示范的上限。比如人类叠一件毛衣可能需要10秒,AI通过反复试错,能找到更高效的动作路径,8秒就能完成;人类可能没练过叠奇形怪状的围巾,AI却能从叠衣服的经验里推导出围巾的叠法。用许华哲的话说,「我们要的不是一个模仿者,是一个能自己解决问题的助手」。
但要让机器人真的走进千万家庭,还有三道坎要跨。
第一道是数据的「真实感」。实验室里的衣服都是平整的、杯子都是放在固定位置的,但你家的沙发上可能堆着揉成球的T恤,餐桌上的杯子可能歪歪扭扭。许华哲的团队用了三层数据采集方案:外骨骼提着机械臂采高精度数据,UMI硬手套让普通人就能快速采集大量动作,还有第一视角摄像头记录人在家干活的自然状态——连你偶尔偷懒的潦草叠法都会被记录进去,这样AI才不会在真实家庭里「水土不服」。

第二道是成本的「亲民化」。现在的人形机器人动辄几十万,普通家庭根本买不起。许华哲的团队算过账:家庭机器人不该是奢侈品,而是像当年的智能手机,初期可能五位数起步,但随着供应链成熟、量产规模扩大,价格会慢慢降到大众能接受的区间。
第三道是安全的「底线」。机器人在你家走来走去,不能碰倒花瓶,不能撞到老人孩子。目前行业里已经有了ISO 13482这样的安全标准,要求机器人必须有紧急停止、防碰撞的机制,但更细节的问题——比如机器人突然没电了怎么避免摔倒,还需要技术和设计的双重打磨。
许华哲说,他从小读《乔布斯传》时就想造一款改变生活的产品,现在这个机会终于来了。过去几十年,机器人一直在工厂里做重复劳动,就像被关在笼子里的鸟;而家庭场景是一片真正的森林,这里没有预设的轨道,只有无穷无尽的意外和需求。
真正的通用人工智能,从来不是在实验室里算出完美的公式,而是能在乱糟糟的生活里,帮你叠好一件揉皱的衬衫,冲一杯温度刚好的咖啡。
泛化能力,是机器人读懂生活的钥匙。