对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
感知-决策-硬件鸿沟|机器人现实挑战|香港中文大学|ATEC科技精英赛|具身智能|人工智能
香港中文大学岭南体育场内,尖叫声和倒吸冷气声此起彼伏!这不是人类运动员的竞技场,而是一场机器人的“荒野求生”——没有平整的室内地面,没有恒定的光线,更鲜有隐身幕后的遥控员。在2025年12月这场名为ATEC科技精英赛的“真实世界极限挑战”中,全球13支顶尖战队的机器人,在残酷的现实面前,上演了一幕幕连环“翻车”大戏,彻底撕碎了实验室的“滤镜”。这不仅仅是一场比赛,更是对机器人能否真正走出实验室,适应复杂现实世界的终极拷问。它以最直白的方式,揭示了机器人迈向通用具身智能,必须跨越的“感知-决策-硬件”三大技术鸿沟。
这场由香港中文大学主办,ATEC前沿科技探索社区、蚂蚁集团、北京大学、北京师范大学联合承办的赛事,旨在打破机器人长期以来在“舒适区”的假象。比赛设计了四大连续任务链:垃圾分拣、自主浇花、定向越野、吊桥穿越。每一个环节都充满了真实世界的“不确定性”。
率先登场的香港中文大学LRL挑战赛队,其机器人尝试抓取塑料瓶时,“哐当”一声将其推倒;好不容易抓到的香蕉皮,又被一个潇洒的抛物线扔到了桶外。隔壁赛区,CUMAE战队的双足机器人虽然能精准浇花,但背后仍需人类操控员坐镇。IRMV战队的四足机器人在吊桥上屡次卡腿,狼狈不堪。这些真实发生的失误,无情地暴露了当前机器人技术的脆弱性。
本届ATEC赛事首次在全户外真实场景中探索“无遥操”技术路径,明确奖励全自主方式,最高可获额外25分。这股“倒逼”机制,旨在推动机器人从听话的“工具”升级为自主决策的“智能体”。然而,面对堆叠的垃圾、晃动的吊桥、实时变化的水壶重量,即便在396支队伍中脱颖而出的全球13强,也普遍感受到了真实户外环境“不确定性”带来的巨大挑战。最终,来自浙江大学的wongtsai(旺财)团队凭借其四足机器人在全自主任务中的卓越表现,以434分拔得头筹,赢得15万美元大奖。
机器人要适应真实世界,首先要能“看清”并“看懂”这个世界。然而,这远比想象中复杂。赛事专家钟仿洵教授指出:“真实环境里最大的问题是不确定性和高动态性,你看到的不一定是真的。”
在ATEC的垃圾分拣任务中,机器人需要识别饮料纸盒、香蕉皮、塑料瓶并精准分类。一个干净的瓶子或许容易,但沾染油渍、被压变形或堆叠的废品,都会严重干扰机器人的“眼睛”。光照变化、风力波动、动态遮挡、纹理缺失,都可能导致误识别。这要求机器人不能只会“看图识物”,更要学会穿透表象,理解物体本质,做出精准判断。

为了解决这一困境,研究者们正积极探索多模态感知融合技术。例如,香港理工大学的PolyU-Real-World-Noisy-Images-Dataset项目,提供了大量真实世界的噪声图像,用于训练机器人更鲁棒的视觉系统。中国科学院提出的LENS系统,模仿人类大脑感知模式,采用“事件相机”,仅在亮度变化时激活像素,能耗不到传统导航系统的10%,却能在8公里范围内高效识别。思岚科技的Aurora S系统,则通过深度融合视觉、惯性导航与AI-VSLAM技术,为机器人打造出能感知空间、理解场景、预测交互的“感知大脑”,实现从室内到室外的跨场景全天候感知。此外,清华大学朱荣团队研发的多功能触觉传感器,通过感知压力、温度、材料热导率等信息,将垃圾分类识别率从69%提升至96%,为机器人提供了“看得见”之外的“摸得着”的智慧。
即便机器人能“看懂”世界,如何在这个充满不确定性的环境中做出“智慧”的决策,是第二个巨大的挑战。清华大学赵明国教授直言,机器人“一旦离开了预设的场景,能力立即大打折扣”。这正是ATEC赛事中“吊桥穿越”和“自主浇花”任务所考验的核心。
刘云辉院士解读“吊桥穿越”任务时强调,关键在于决策和规划能力。机器人必须自主思考,比如拿起木板去铺路,改变环境后才能前进——这已不再是简单的走路,而是包含判断环境、使用工具、规划步骤的“高级智能”。而“自主浇花”任务中水壶重量的实时变化,则考验了机器人在动态环境下的实时推理和响应能力。
传统的机器人决策多采用模块化设计,感知与运动控制相对独立。然而,真实世界的复杂性要求机器人具备“举一反三”和“适应新场景”的泛化能力。为此,概率论与强化学习成为突破口。 Sebastian Thrun的《概率机器人学》强调,机器人必须分配概率来处理不确定性,并根据这些概率更新对状态/环境的信念。卡尔曼滤波器等概率算法被广泛用于传感器数据的融合和状态估计。
近期,北京大学团队提出的MobileVLA-R1模型,不再“看图直接给动作”,而是让机器人先生成一段可解释的链式推理(CoT),再据此输出动作。这种“先思考,再行动”的两阶段训练范式,让机器人更像一个有“内心独白”的管家,极大地提升了决策的可解释性、可优化性和可扩展性。同时,Google DeepMind的Gemini Robotics模型和NVIDIA的“三计算机解决方案”(DGX训练、Omniverse仿真、Jetson Thor部署),正通过大规模训练、虚拟仿真和端侧推理的协同,加速机器人从“听话的工具”向“智慧自主体”的转变。
机器人要实现“智慧自主体”,最终仍要依赖其物理躯体的支撑。然而,“身体跟不上脑子”是普遍的“硬件之痛”。ATEC赛事中,参赛队伍普遍反映,防水性不足的机械臂、碎石路上抓地力不够的足端、算力受限的机载电脑等现实问题,都在逼迫算法层面做出更极致的优化。
人形机器人本体算力有限,峰值功耗仅约100瓦,相当于几部手机的算力。宇树科技创始人王兴兴指出,人形机器人无法像服务器一样搭载大规模算力芯片,电池容量和能效比限制了本地算力。为此,宇树科技提出了“集中式算力中心+分布式机器人”的解决方案,将低延迟算力中心部署在车间内部,机器人通过有线或无线方式实时连接,以应对复杂决策对算力的需求。
电池续航能力更是制约机器人大规模部署的“心病”。人形机器人需要高能量密度、高倍率放电能力和长寿命的电池。广汽第三代具身智能人形机器人GoMate,凭借可变轮足设计和全固态电池支持,续航能力达到6小时,能耗相比同类产品节能80%以上。豪鹏科技的方形叠片电池和盛视科技的自主换电方案,也致力于缓解“电量焦虑”。

机械结构和灵巧手同样是硬件瓶颈。人形机器人关节数量多,对电机、减速器、丝杠等核心部件的精度、扭矩密度、轻量化和可靠性要求极高。中国在机器人硬件领域已实现90%的国产化,但行星滚柱丝杠、六维力传感器等核心部件仍依赖进口。然而,创新也在涌现,慧灵科技发布的eHand-6工业灵巧手,以2999元的价格实现了成本和性能的突破,通过微型电动推杆和全栈自研优势,将工业级灵巧手带入千元时代。此外,碳纤维复合材料的应用,如波士顿动力Atlas和特斯拉Optimus Gen-2,显著减轻了机器人自重,提升了灵活性和负载能力。
机器人发展至今,已从20世纪50年代“没有大脑的躯体”,历经90年代“有了感知能力的执行机器”,到21世纪初“与人交互协作智能体”的演进。如今,我们正站在“具身智能”的门槛上。具身智能(Embodied AI)的核心,是让AI拥有物理躯体,通过身体与环境的动态交互来产生智能,在“感知-决策-行动-再感知”的实时闭环中不断学习和进化。它打破了传统AI“在计算机中思考”的范式,走向“走进真实世界学习”。
具身智能的理念最早可追溯到图灵在20世纪50年代的设想,后经罗德尼·布鲁克斯的行为主义机器人学、罗尔夫·普费弗和琳达·史密斯的具身认知理论不断发展。近年来,随着大模型、深度强化学习和模拟到现实(Sim-to-Real)技术的飞速发展,具身智能迎来了“ChatGPT革命”般的转型。多模态融合感知、自主化学习、人机协作和柔性仿生设计,成为具身智能的四大前沿趋势。它意味着机器人将不再是孤立的工具,而是能够真正理解世界,并像人类一样通过身体与环境互动来获取智能的“智能生命体”。
具身智能的宏大愿景,需要顶层战略的指引与伦理规范的约束。中国已将具身智能纳入国家战略,2025年《政府工作报告》首次写入“具身智能”概念,工信部也颁布了《人形机器人创新发展指导意见》,明确了到2027年人形机器人技术达到世界先进水平的目标。地方政府也积极响应,如北京、上海、广东等地纷纷出台专项政策,推动产业集群发展,并建设共享测试平台。
机器人产业的市场前景广阔。根据预测,2025年全球人形机器人市场规模将达63.39亿元,中国占比超50%;至2030年,全球市场规模或突破640亿元,中国有望以32.7%的份额领跑全球。工业通用操作、汽车制造、安全应急、家居服务等十大潜力应用场景,描绘了机器人未来融入人类生活的蓝图。
然而,随之而来的伦理和法律挑战不容忽视。数据隐私风险、责任划分难题、伦理边界争议(如社交机器人对老年人的情感影响)和知识产权模糊,都需要提前布局。我国已在专利审查中加强人工智能伦理审查,强调“智能向善”。教科文组织也发布了《人工智能伦理问题建议书》,提出了“增进人类福祉、尊重生命权利、坚持公平公正”等十大核心原则。这些框架的建立,旨在确保具身智能在推动社会进步的同时,能够安全、负责任地发展。
ATEC赛事上机器人跌跌撞撞的“成人礼”,虽暴露了诸多不足,却也为具身智能的未来指明了方向。每一次“翻车”,都是通往真实世界应用的重要路标。正如刘云辉院士所说:“比赛就是一种能力测试。我们能不能通过这些比赛找到一些基准,大家一起Work out一个东西。”
未来十年,清华大学张亚勤院士预测全球机器人数量将超过人类,机器人将成为人类能力的“延伸”。它们将变得更智能、更便宜,广泛应用于工业、家庭、医疗等领域。从工业制造中的分拣配料、质量检测,到灾害应急中的搜救,再到家庭中的生活协助和儿童陪伴,人形机器人将逐步从实验室走向千家万户。
实现这一愿景,需要持续的技术突破。世界模型(如李飞飞World Labs的Marble)能从有限视觉输入中预测未来场景,理解因果结构,将成为具身智能实现通用人工智能的关键组件。多接入边缘计算(MEC)将解决算力瓶颈和通信延迟。同时,跨学科的人才培养,融合机械、电气、计算机、系统工程等多个领域,将为行业输送源源不断的创新力量。
具身智能的未来,将不仅仅是技术的进步,更是人类与机器共存方式的深刻变革。机器人将不再是冰冷的工具,而是能够感知、思考、行动、学习的智能伙伴。它们将在不确定性中探索,在协作中成长,与人类共同塑造一个更加智能、高效、美好的明天。这场人机共舞的序章,才刚刚拉开。