
2 个月前
当波士顿动力的Atlas机器人以惊人的360度头部旋转和体操般的流畅动作震撼世界,当Figure AI凭借390亿美元的估值描绘着端到端模型的宏伟蓝图时,一场无声的危机正在具身智能的华丽舞台下蔓延——数据饥荒。
这与大语言模型的成长路径截然不同。GPT模型可以畅饮互联网上近乎无限的文本与图像,数据成本趋近于零。但机器人不同,它的每一次学习都必须在物理世界中“一拳一脚”地实践出来。每一次抓取、每一次放置,背后都是硬件的磨损、时间的消耗和高昂的试错成本。获取高质量的机器人交互数据,其难度和代价,是网络爬虫的百万倍。整个行业都弥漫着一种集体焦虑:模型已备,算力已足,但能用来“喂养”机器人的高质量数据在哪里?
正当全球玩家都在为“没米下锅”而苦恼时,一家名为灵初智能的中国公司,却选择了一条看似最原始、最“笨拙”的道路。他们没有急于打造更炫酷的机器人本体,而是把宝押在了一副数据手套上,潜入最真实的物流仓库和工厂车间,去开采一座前所未有的“原始矿脉”——人类原生操作数据。
2026年初,灵初智能创始人王启斌一语道破了行业天机:“数据量不够,模型层面的任何精巧架构调整都毫无意义。” 这家成立不足两年的黑马,正试图用一套以“人类为中心”的数据采集与训练体系,直击具身智能的根本生存难题,并在最朴素的物流分拣场景中,验证其技术与商业的闭环。
过去,行业主流的数据采集方案是“机器中心”的,其代表是UMI模式——让人手持一个与目标机器人完全相同的夹爪进行遥操作。这种方式采集的数据,本质上是“机器数据”,它与特定的硬件深度绑定。“今天用这个夹爪采的数据,明天换一个夹爪可能就完全作废了”,联合创始人陈源培指出了其根本缺陷——缺乏泛化性。

灵初智能则选择了更为激进的“人类中心”路线。他们自研的Psi-SynEngine数据采集引擎,其核心是一副能够精确捕捉人手21个关节自由度和高精度触觉信息的数据手套。其革命性并非硬件本身,而在于部署模式:让物流分拣员、产线工人在日常工作中“无感佩戴”,在不改变任何既有工作流程的前提下,自然而然地采集人类最真实、最灵巧的操作数据。

这种模式带来了两大颠覆性优势:
灵初智能并非只想成为一个“数据批发商”。他们清醒地认识到,纯粹出售原始数据没有长期价值。他们规划的,是一个从源头构建护城河的数据飞轮:

这个闭环的核心在于,通过深入真实的商业场景,将数据采集的行为与创造商业价值的行为合二为一。当机器人开始在仓库里稳定“打工”时,它就已经成为了一个永不疲倦的数据采集终端。后来者即便资金再雄厚,也难以逾越这条由真实业务流和时间积累起来的“数据护城河”。
“我敢肯定,通用操作能力的涌现一定是百万小时量级以上的事情。” 联合创始人陈源培的判断,呼应了自动驾驶领域的先例——特斯拉FSD V12的成功,正是建立在数百万小时真实驾驶数据的喂养之上。而机器人操作面临的环境复杂度和动作维度远高于驾驶,所需数据量只多不少。
因此,灵初智能为自己定下了2026年的首要战略目标:将其人类原生数据规模推至100万小时,并基于此训练出新一代的通用操作预训练模型。这不仅是灵初一家的雄心,也为整个行业划下了一道清晰的基线——在具身智能的下半场,百万小时级的真实高质量数据,将不再是加分项,而是入场券。
灵初智能的故事,是中国科技创新路径的一个缩影:不迷信算法神话,而是脚踏实地,死磕最苦最累的数据基础设施;不空谈通用人工智能(AGI),而是扎进最需要提效的物流车间,用商业订单检验技术成色。
这场围绕具身智能的全球竞赛,正在悄然转换赛道。聚光灯正从少数几个明星机器人身上移开,转向那些看不见但决定未来的数据工厂、采集管线和闭环生态。未来真正拉开差距的,或许不再是模型参数的大小,或是机器人能否后空翻,而是谁能率先构建起一个可持续、规模化、高效率的真实世界数据循环体系。
决定机器人未来的“原始矿藏”,就埋藏在人类数千年进化而来的灵巧操作中。而谁掌握了挖掘和提炼这些矿藏的先进工具和方法论,谁就掌握了开启物理世界通用智能的钥匙。
点击充电,成为大圆镜下一个视频选题!