机器人为何不能像婴儿一样学习？

因为婴儿的“学习系统”先天就是为现实世界定制的。进化把强力先验写进了会自我改造的20瓦大脑：模仿与注意偏置、抓握与平衡反射、对因果和物体恒常的初级假设；再用连续不断、触觉/前庭/本体感觉齐全的自监督数据流驱动。好奇心与社会反馈把每次尝试都变成密集奖励信号，样本效率极高；而机器人多依赖稀疏奖励、离线数据和昂贵且危险的试错，数据效率天生吃亏。更关键的是“身—脑”闭环差异。婴儿柔顺的身体和反射构成了天然稳定器，形态本身在做计算；机器人刚性大、触觉稀缺、控制时延与标定误差放大了因果归因难度，学习容易崩。仿真很难还原摩擦、弹性与接触不确定性，真机数据又贵且难以规模化，拿不到婴儿每天成千上万次安全微交互的训练量，自然难以“像婴儿那样”学。要逼近婴儿路径，方向不是再堆数据，而是把学习机制换挡：更丰富的触觉/前庭感知与柔顺执行器，世界模型驱动的自监督与好奇探索，模仿+社交学习的阶段式课程，配合仿真—真机的持续蒸馏与安全护栏下的在线增量学习。等这些环节补齐，机器人才可能以少量经验获得婴儿级别的迁移与泛化。

你的日常动作，未来能卖多少钱？

你的日常动作已经是“训练货币”。按当下市场行价：用手机拍的家务/取放/开关等短视频，轻标注后每条（10–30秒）约0.5–5元，或按时计100–500元/小时；若配多视角+IMU/手套并含语义、接触与力位轨迹，高保真可卖到10–50元/条，或1000–3000元/小时；涉及稀缺专业场景（精密装配、护理、低温湿滑等），常按类目打包，100小时可谈10–100万元，或5000–20000元/小时。能卖多贵取决于“可迁移性×罕见度×验证增益×权属清晰度”。未来主流会从“按小时”转向“按增益分成”：若你的数据让某抓取成功率提升5%，对应产线年化多赚100万元，平台按1%–5%分成，你这一批数据可拿1万–5万元；同时配合确权与匿名合规、可追溯水印与独占期，普遍有20%–50%的溢价，独占数据溢价可达2–5倍。

教会机器人后，谁为它的“坏”买单？

“教会”之后并不诞生法律主体。按现行规则，账单仍落在“人”的链条上：制造商/开发商对缺陷设计、危险算法或更新失当承担产品责任，系统集成与部署方对场景适配、维护和超出ODD使用负有过错责任；存在遥操作或人机共驾时，操作员与其用人单位适用过错与雇主责任；训练数据与模型提供者若构成“实质性修改”或数据污染致害，也会被纳入连带。遵循强制标准与功能安全规范可作为合规抗辩，反之易触发过错推定。欧盟已将软件与AI纳入产品责任并降低受害人举证门槛；国内可依民法典的产品责任、高危作业、网络服务者责任叠加适用，基准测试与运行评测记录将成为关键证据。落地层面更像“先赔后追”。通过强制或契约性“算法/产品责任险+召回险”，对人身与财产损害先行无过错赔付，再依据黑盒日志、版本与数据溯源，在制造商、数据方、运维承包商间分摊追偿。想不被“坏”拖垮，企业需备三件护身符：全链路可追溯与EDR黑盒，独立安全子系统与功能安全认证，清晰的ODD与用户边界管理，并在合同中锁定更新义务、数据质量担保与远程停用权。原则很直白：越自主、越出厂决定的行为，厂商买单越多；越由人在环、越越界使用，操作者与雇主承担越多。

新知 - 大圆镜｜机器人跑赢人类半马，却困在数据荒漠里

对抗知识焦虑，从看懂这条开始

App 下载

比石油更稀缺的，是机器人的“练习册”

具身智能——就是让AI附着在机器人这类物理载体上，像人一样感知、行动和学习——的核心，从来不是跑得有多快，而是有多“懂”这个世界。就像人类的智能来自从小到大的摸爬滚打，机器人的智能也需要海量真实世界的“练习数据”：比如拿起水杯时的力度反馈、在湿滑地面走路的重心调整、识别不同材质的物体该怎么抓握。

但这些数据，比大语言模型的文本数据难搞一万倍。ChatGPT可以爬取整个互联网的书籍、帖子当练习册，机器人却必须真刀真枪地在现实里试错：碰碎100个杯子，才知道怎么拿稳第101个；摔200次跤，才学会在瓷砖地上怎么落脚。采集一小时这样的真机数据，成本至少200元，还要调动视觉、触觉、力觉等十几种传感器。

更关键的是，现在整个行业凑起来的高质量真机数据，也就50万小时——而要等到机器人的智能“涌现”，也就是像大语言模型那样突然具备举一反三的能力，业内估算至少需要1亿小时。这就像一个小学生，刚学了100个汉字，就要写一篇高考作文。

三层数据金字塔，托得起智能涌现吗

为了填满这个数据黑洞，行业拼出了一个“数据金字塔”：最顶端是金贵的真机数据，每一秒都带着真实物理世界的反馈；中间层是仿真数据，在虚拟环境里让机器人无限次练习，成本只有真机的十分之一；最底层是人类视频数据，从互联网上扒取人类的动作视频，让机器人先“看会”再“学会”。

但这三层数据各有各的坎。真机数据不仅贵，还像一个个孤岛：不同企业用不同格式存储，标注标准也不统一，你家机器人“拿起杯子”的数据，放到我家机器人的模型里根本用不了。仿真数据虽然便宜，却永远和真实世界隔着一层——虚拟环境里拿稳的杯子，到了现实里换个材质就可能失手。人类视频数据倒是多，却没有触觉、力觉这些关键信息，机器人看1000次人类拿杯子，也不知道该用多大劲。

更要命的是，现在连怎么判断数据好不好都没标准。以前大家只看数据量，以为堆得越多越好，直到发现很多数据都是重复的“垃圾”——比如同一个机器人在同一个房间里拿了1000次同样的杯子，对智能提升毫无帮助。现在有人提出用“多样性熵”来衡量，看数据覆盖了多少不同场景、不同动作，但这套方法还在实验室里打转。

企业们的破局：从抢数据到拼效率

一些企业已经开始动手填这个坑。觅蜂科技计划在2026年产出千万小时级的数据，靠的是把真机采集、仿真生成和人类视频转化打包成流水线；Shutu科技的SynaData技术，能把互联网上的普通视频自动拆解成机器人能用的动作数据，成本降到了真机采集的千分之一。

但更聪明的思路，是提升数据的利用效率。极佳视界的团队发现，用几十万个小时的数据训练模型，每年要烧掉几千万的GPU费用，如果真要凑够1亿小时，成本根本扛不住。他们开始给模型“减肥”，优化架构让它能从更少的数据里学到更多东西——就像一个学霸，看一遍书就能记住，而不是靠死记硬背刷100套题。

还有人盯上了“失败数据”。北大发布的RoboMIND数据集里，专门收录了5000条机器人失败的轨迹：比如抓杯子时手滑了、走路时被电线绊倒了。以前大家都把这些数据当垃圾，现在发现，从错误里学东西，可能比从成功里学更快——就像人类摔过一次跤，下次就会注意脚下的石头。

当那台机器人冲过半马终点线时，全场的欢呼里藏着对未来的期待：总有一天，机器人能像人一样灵活、聪明，走进工厂、家庭，帮我们做所有不想做的事。但很少有人注意到，这台跑赢人类的机器人，其实还在数据的荒漠里蹒跚。

数据不是石油，挖出来就能用；它更像土壤，要先开垦、施肥、育种，才能长出智能的果实。机器人的智能涌现，始于数据的厚积薄发。这场关于数据的马拉松，才刚刚鸣枪起跑。

比石油更稀缺的，是机器人的“练习册”

三层数据金字塔，托得起智能涌现吗

企业们的破局：从抢数据到拼效率

评论