AI学物理总“挂科”，它到底缺了什么？

“挂科”的症结不在算力或数据量，而在认知方式。主流大模型依旧是“下一个词预测器”，善于从文本与标注里扒统计线索，却难在真实图像里建立稳定的三维世界表征，更不会自发遵守连续性、保形性、能量/动量守恒等物理不变量。于是它们在PHYX这类真实场景物理题上频繁误读空间关系、混淆隐含条件，换个表述就崩，能把推导写得头头是道，却在单位换算和数值细节上出错。 AI真正缺的是会“做实验”的心智与会“装配世界”的内核：需要对象中心、可组合的世界模型，显式跟踪实体与状态，把对称性与守恒律作为归纳偏置写进架构或训练正则；需要把符号求解、数值仿真、单位校验等工具接到推理回路里，让“会想”也“会算”；需要具身数据与可干预的仿真闭环，在试错与因果对比中学会物理；再配上长时记忆与不确定性估计，跨多步保持全局约束。最后，目标函数与评测也该换道：少做多选题，多做“预测下一步世界状态+干预验证”的开放式任务，让模型为能动、可检验的物理理解而学。

AI数学家能搞定哥德巴赫猜想吗？

结论先说在前：短期内很难。真正悬而未决的是“强哥德巴赫”（每个足够大的偶数=两个素数之和），它卡在筛法的“奇偶性障碍”上——现有技术最多逼近到“1+2”（陈氏定理）这道天花板。如今表现最好的“AI数学家”虽已能在研究级题上独立给出严谨证明、并完成Lean形式化，但本质仍在既有理论与工具箱内做深度搜索、推理时扩算与自检，尚未显露“发明新数学装置”的能力。而强哥德巴赫极可能需要全新的范式，或对素数分布达到接近Elliott–Halberstam/Hardy–Littlewood型的强结论。更现实的中期路径，是把AI当合作者而非救世主：让它大规模穷举并淘汰筛结构与参数、自动化检查庞杂细节、整合文献形成“条件路线”（在GRH/EH等假设下推进到“对足够大偶数成立”，再配合计算验证缩小例外区间）。一旦出现能自主提出中间概念与新不变性的推理型模型，胜算才会迅速上升；但以当前进展看，哪怕以十年计，也没有可靠时间表。

AI演员永不犯错，我们还信自己的眼睛吗？

“AI演员永不犯错”是一种错觉。它们会犯另一种错：过于完美。微眨频率、注视扫视、呼吸牵动、肌肉不对称这些人类噪声常被抛光，从而在高情感场景里显得“顺得不真实”。更要命的是，人类用肉眼识别深度伪造的准确率长期徘徊在五六成，自信却常常过度；检测模型与生成模型此消彼长，今天能抓的伪迹，明天就被新的训练流程抹平。因此，别再让“眼见为实”独自背锅，信任应从感知转向凭证。看画面不如看证据链：有无设备侧签名与内容凭证、拍摄时间地点是否一致、是否能提供原始素材与多源旁证。元数据与水印容易在转码和二次剪辑中被削弱，越是传播链条长、剪辑痕迹重的片段，越应该默认为“需验证的主张”，而非“默认真实的记录”。当AI演员越来越像人，我们就越要像记者。创作者主动标注合成、平台默认开启来源凭证、公众延迟转发高争议视频，才能把“看得见的真实”升级为“可验证的真实”。在可合成的世界里，可靠不再长在镜头里，而长在流程上。

新知 - 大圆镜｜从谷歌到字节，吴永辉的多模态AI破局之路

对抗知识焦虑，从看懂这条开始

App 下载

多模态AI：让AI学会「通感」

你可以把单模态AI想象成只会一种语言的翻译——只会看文字的看不懂图片，只会听声音的理解不了视频。而多模态AI，是能同时听懂语言、看懂画面、识别声音的「全才翻译」，它能把不同类型的信息拧成一股，还原出更接近人类感知的完整世界。

吴永辉在谷歌参与Gemini研发时，就盯着这个核心问题：怎么让不同模态的信息真正「对话」，而不是简单拼接？Seedance 2.0给出的答案是双分支扩散Transformer架构——视觉和音频像两条并行的流水线，各自处理画面帧和声波信号，再通过「注意力桥」实时交换信息：当画面里出现玻璃破碎，音频分支会自动匹配对应材质的混响效果；当镜头拉远，背景音的音量会同步降低。

但真实的机制比这更精确。这套系统的核心是跨模态注意力机制：文本描述里的「悲伤」，会引导视觉分支重点捕捉人物的眉眼下垂、嘴角弧度，同时让音频分支生成低沉的背景音乐。每一个模态的输出，都在实时参考其他模态的信号，最终实现误差低于40毫秒的音视频同步——这个精度，已经接近人类肉眼的感知极限。

从实验室到产业：把技术变成好用的工具

吴永辉团队的厉害之处，不止是突破技术瓶颈，更是把复杂的AI能力，变成了普通人能上手的工具。Seedance 2.0的「@引用」系统，就像给AI安了个精准导航——你可以指定某张图片的人物脸型，某段视频的动作轨迹，某段音频的情绪基调，AI会把这些元素无缝融合成新的视频，甚至支持局部重绘：把人物的愤怒表情改成恳求，同时保留背景的雨声和音乐不变。

这背后是字节跳动的产业逻辑：AI不能只停留在实验室的跑分榜单上，要能解决真实场景的问题。Seedance 2.0的生成成本只有0.5美元/次，是OpenAI同类产品的一半，生成可用率却高达90%——行业平均水平还不到20%。这种效率的提升，靠的不是堆算力，而是吴永辉带来的「工程化思维」：用混合训练策略先让不同模态对齐，再通过指令微调适配具体场景，同时用MoE架构把算力用在刀刃上，避免不必要的资源浪费。

当然，光环背后也有隐忧。Seedance 2.0刚上线就因版权问题被好莱坞多家公司起诉，字节不得不紧急限制真人肖像生成功能。这也暴露了多模态AI的共性难题：训练数据的版权边界、生成内容的伦理风险，这些都不是技术能单独解决的问题。

下一站：让AI学会「长记性」

现在的多模态AI，还像个记性不好的聪明人——能处理短片段的信息，却没法记住几小时前的对话，更没法完成需要多步推理的复杂任务。吴永辉团队的下一个目标，就是解决长推理和长文本处理的问题。

你可以把这个过程想象成让AI写一篇长篇小说：不仅要记住开头的人物设定，还要让中间的情节连贯，结尾的逻辑自洽。目前他们的思路是扩展模型的上下文窗口，同时引入「世界模型先验」——让AI先学习真实世界的物理规律和常识，比如「苹果掉下来会落地」「人不能凭空消失」，再用链式思维把复杂任务拆解成一步步的小问题。

已经有了初步成果：Seed2.0能处理小时级别的长视频，快速提取关键信息，甚至能根据视频内容生成完整的解说文案。但要让AI真正拥有「长期记忆」，还要解决算力成本和模型效率的矛盾——毕竟，记住越多信息，需要的计算资源就越多，这又是一场技术和成本的博弈。

当我们惊叹于AI生成的逼真视频时，其实是在见证一个时代的转折：AI正在从「感知世界」走向「理解世界」。吴永辉从谷歌到字节的选择，本质上是站在技术和产业的交叉口，把实验室里的突破，变成了能改变普通人生活的工具。

技术的终极意义，是服务人的需求。 未来的AI不会是冰冷的机器，而是能听懂情绪、看懂场景、记住偏好的「伙伴」。而像吴永辉这样的科学家，就是连接技术理想和现实需求的桥梁——他们让我们相信，AI的下一站，不仅是更强大的能力，更是更懂人的温度。

多模态AI：让AI学会「通感」

从实验室到产业：把技术变成好用的工具

下一站：让AI学会「长记性」

评论