AI作画的终点，是造机器人？

不是。AI作画的尽头不是“造机器人”，但它正把路铺到机器人那里。高质量图像/视频生成，本质是在学可采样的“世界模型”：能预测下一帧、理解布局与因果，再把这台“未来模拟器”接到策略上，就能做规划与控制。近两年VLA/RT-2把视觉语言知识迁移到机械臂，零样本任务成功率相对提升约62%；Diffusion Policy等生成式策略在抓取与装配上屡夺SOTA，趋势很清晰。真正的难点在于从“会想象”到“会执行”。机器人需要海量真实交互与触觉力控数据（Open-X Embodiment已汇聚约百万轨迹，仍远少于图文数据几个数量级），还要把模型压到小于50毫秒的控制回路里，解决安全与鲁棒性。所以更准确的说法是：AI作画是具身智能的地基，“造机器人”是上层建筑；当世界模型、低时延控制和数据闭环三件事同时跑通，通用机器人才会从“会画”走向“会做”。

当AI能以假乱真，眼见为实？

当AI已能以假乱真，像素不再是证据，来源才是。靠肉眼挑错、找瑕疵的时代结束了，检测器在简单压缩、截图转发后准确率会大幅下滑，水印也可被裁切、再生成。可信度正在从“看起来真”迁移为“可验证真”：用加密签名与可追溯元数据来证明一张图从谁的设备、经谁之手到你眼前。业界正推行C2PA“内容凭证”，部分相机已支持拍摄即写入签名，平台开始显示来源标记，监管也在要求合成内容标识，但覆盖仍不完整，链路一旦断裂，信任就回到起点。你该调整判断方式：把每张图当作“一个主张”，先问能否验证其出处与签名，而不是它“像不像”。重大信息等24小时，看权威媒体是否以带凭证素材复核；做反向搜索与多源交叉，核对时间、地点、天气与上下文是否自洽。机构侧应把“签署-存证-校验”纳入采编与供应链流程，默认无凭证素材不用于高风险传播，要求合作方交付C2PA与哈希记录，并在发布端默认展示来源与编辑轨迹。结论很简单也很冷静：眼见不必为实，“可验证的来源”为实。

AI画不好折纸，暴露了什么？

折纸难，AI画不好，首先暴露的是“没有行动中心的世界模型”。它会记纹理，不会记因果；对非刚体的几何与接触缺乏约束：纸是可展曲面，折痕应直线连续、面积近似守恒、不能自交穿模与违背遮挡秩序。这些结构化物理与几何公理并未进入训练目标，而互联网样本又稀缺逐步状态与手—物交互标注，模型只能学到“像”，学不到“折”。更深一层，是时序与可执行性的缺位。折纸是数十到上百步的长期计划问题，要求记忆、分解与可验证的程序轨迹；主流扩散/自回归只在像素似然上最优化，没有“能否按步骤完成”的指标，于是画面合理、物理矛盾。即便动作—视觉解耦的潜在动态模型把折纸飞机成功率拉到约69%，离人类稳定的>95%仍有明显代差。出路不在“更会画”，而在“会演化”。把生成升级为状态转移：引入可微薄壳物理与几何约束，把折纸文法（如Huzita–Hatori公设）做成可调用模块，配合程序化监督、3D/力学标注与因果训练；用世界模型承接长时记忆，让规划器产生命令，再由渲染器补细节。能把纸折对的AI，才可能把现实世界也“做对”。

新知 - 大圆镜｜AI生图终于写对字，背后是26岁中国学者的十年

对抗知识焦虑，从看懂这条开始

App 下载

从“画字”到“写字”：架构重构的秘密

过去的AI生图模型，本质上是在玩“像素拼图游戏”——把文字当成和树叶、云朵一样的视觉元素，用扩散模型从噪声里还原出“看起来像字”的像素块。这种方法的天花板很明显：它不知道自己画的是什么字，只是模仿文字的视觉形状，一旦遇到复杂字体、小尺寸或多语言混排，就容易露馅。

GPT Image2推翻了这个逻辑。它把图像和文字拆成了统一的“视觉token”，用类似大语言模型的自回归方式生成——就像人写文章时，每一个字都要符合上下文逻辑，模型生成每一个视觉token时，也会参考全局的语义和布局。你可以把这个过程想象成：以前的AI是照着字帖描红，现在的AI是先读懂文章意思，再自己把字写出来。

核心的技术支撑，是陈博远在MIT读博时提出的Diffusion Forcing训练范式。简单来说，就是把扩散模型处理视觉细节的能力，和语言模型逐token生成的逻辑能力结合起来：每个视觉token拥有独立的噪声水平，模型在生成时，既保留了前文内容的清晰度，又能根据语义逻辑生成后续的文字和图像元素。这种架构直接把文字渲染的准确率从90%拉到了99%，也让AI第一次真正“理解”了它生成的文字。

十年跃迁：从编程小白到AI核心研究者

26岁的陈博远，是GPT Image2核心研发团队的负责人，也是Sora视频生成团队的成员。很少有人知道，十年前他还是个连Python语法都不懂的高中生。

2016年，16岁的陈博远在江苏省天一中学读高二，因为参加机器人竞赛和科研夏令营，遇到了改变他人生的引路人——Google DeepMind的资深研究员夏斐。在夏斐的引导下，这个连编程都不会的高中生一头扎进了AI世界。之后的十年里，他从天一中学人工智能社社长，到伯克利AI实验室的科研助手，再到MIT的博士，最后加入OpenAI成为核心研究者，只用了十年就走完了别人可能需要二十年的路。

他在MIT的博士论文《Diffusion Forcing》，成了GPT Image2架构的核心理论基础。在OpenAI的13人团队里，他带着一群平均年龄不到30岁的研究者，用十个月时间完成了从GPT Image1.5到GPT Image2的架构重构。发布会后他在知乎自嘲“国内媒体没发现只有我是国人”，这句玩笑的背后，是华人学者在全球AI领域越来越重要的话语权——这支13人团队里，华人超过一半，他们的背后是一张从无锡到伯克利再到MIT的学术传帮带网络。

极限测试：米粒刻字与多语言海报的挑战

GPT Image2的文字渲染能力，在一系列极限测试中得到了验证。陈博远在发布前特意做了一张“彩蛋图”：在一幅多层嵌套的漫画里，加入了中韩孟三种语言的文字，还在海报右下角生成了极小的中文——小到几乎需要放大镜才能看清，但每个字都清晰可辨。更惊人的是“米粒刻字”测试：在4K分辨率的图像里，一颗米粒上的文字笔画分明，没有任何模糊或变形。

这些测试不是炫技，而是直接指向了AI生图的应用边界。过去的AI生图只能用来生成艺术插画或概念图，因为文字不准确，无法直接用于广告、UI设计、技术文档等需要精准文字的场景。但GPT Image2的出现，让AI生图第一次真正具备了工业级应用的能力：广告公司可以直接用它生成多语言海报，设计师可以用它生成精准的UI原型，甚至可以生成带有复杂公式和文字的科学图表。

当然，它也不是完美的。在处理超长文本、手写体或三维透视文字时，它的准确率还是会下降；生成极高分辨率图像时，速度和成本的权衡依然存在。但这些问题，已经是技术优化的范畴，而非底层逻辑的缺陷。

GPT Image2的意义，不止于AI终于能写对字了。它标志着AI生图从“视觉模拟”进入了“语义理解”的新阶段——以前的AI是用眼睛看世界，现在的AI是用脑子理解世界。

这也是陈博远一直强调的“世界模型”理念：AI不应该只是生成像素，更应该理解像素背后的语义、逻辑和物理规律。这种理念，正在推动AI从“狭义工具”向“通用智能”靠近。

看懂世界，才能写好世界的语言。 当AI开始理解它所生成的内容时，我们离真正的通用人工智能，又近了一步。

从“画字”到“写字”：架构重构的秘密

十年跃迁：从编程小白到AI核心研究者

极限测试：米粒刻字与多语言海报的挑战

评论