如何为AI的审美和创意进行打分？

如果“美”也能被刻度尺量一量，会发生什么？从国画的留白到广告的爆点，从插画的构图到情绪的涌动，AI 作品横跨风格与语境。给它们打分，不是拍脑袋的玄学，而是一门把主观体验变成“可验证信号”的工程学。要让审美与创意“落地可评”，先把问题拆成几层：评什么、怎么证、怎么合人意。评什么，意味着建立多维指标；怎么证，意味着把每个指标变成机器可检的“连续奖励”；怎么合人意，则用人类偏好把模型校准回“人心”。指标体系不必凭空想象，已经有成熟范式在运转。面向专业美学，国内的审美大模型会将一幅图拆为构图设计、视觉元素、技术执行、想象创意、主题传达、情感反应与整体完型七个维度，每个维度既有分数也有文字讲评，从而让“分数能解释，建议可执行”。面向任务合规与生成能力，综合基准会把一条提示分解为数十个“测试点”，逐一判定是否满足，既支持中文也支持英文、短文与长文，结果是类似考试阅卷的“逐点过关”。面向主观体验，认知影像基准专测美感、幽默、情绪与记忆度，采用与人类评分的相关性作为准绳，通过“先分类再评分”和软标签，逼近人群分布而非单一裁判。面向文化语境，国画评测用“盲评对战”，由专家对两段图像解读做偏好投票，再用 Elo/Bradley–Terry 累积成可靠名次，既避免刷题，也把“中国式审美”的脉络放回了土壤里。有了“评什么”，还要“怎么证”。把艺术问题变成马尔可夫决策里的奖励，关键是让每个维度都产出可重复、可微调的信号：构图与技术可由视觉编码器判断规则线、色彩和谐、文字清晰；主题与一致性可由多模态大模型逐条核对提示是否落实；情绪与美感则用与人类评分高度相关的预测器给出连续分数。广告创意还能接入真实世界指标的代理模型，例如基于大规模经消费者验证的广告库去预测注意力、品牌记忆与购买倾向——在生意里，兼具卓越创意与出色效果的作品，通常能兑现远高于普通作品的投资回报，这让“美”与“有效”在同一张成绩单上对齐。创意不只是“好看”，还在于“新颖而有用”。新颖性可以用嵌入空间的距离、风格稀有度与元素组合的罕见性来估计；“有用”落在任务：是否准确传达设定主题、是否为场景带来价值；“意外之喜”可用基线模型的低概率高评价样本来刻画。为了防止模型迎合平均口味而失去惊喜，评价系统需要维持探索活力：在在线评估与迭代中，用比例或比例–积分的权重调节，让系统既稳住人类偏好的均值，又保留打破常规的空间，避免“熵衰减”带来的审美保守化。人类对齐是另一条底线。采用多文化、多群体盲评，收集分布而非单点意见，用软标签训练，让模型理解“一群人如何分歧”；在中文传统语境中，融入题材、笔墨、意境与史论背书，评的不只是像不像，更是“有没有那股气”。当解释力与公平性并行，你会得到的不止是一个分数，还有一段让创作者愿意继续改的评语。把这些拼成一条实操流水线并不复杂：确定应用场景与权重（比如广告更看重传达与记忆，艺术创作更看重新颖与情绪）；选定或定制相匹配的基准与评分维度；为每个测试点做“可验证”的判定器，输出连续或二元信号；组织盲评形成偏好数据，用配对比较和相关性检验校准自动评估器；上线后以小流量 A/B 收集真实用户反馈，定期重标定，确保分数持续贴紧人心与场景目标。评语自动生成与“评分标准一键生成”工具能把这套机制嵌进创作工作流，做到“边创作，边诊断，边提升”。当评分开始影响创作，也要警惕“为分数而分数”。美学的仪表盘是指南针，不是方向盘；它告诉你往哪更有价值，却不该替你驾驶。留白之所以动人，正因为未被指标完全涵盖。愿我们为 AI 的审美与创意打分，是为了给灵感搭脚手架，而不是给想象装围栏；在可验证的地方学会规矩，在不可验证的地方，勇敢保留惊喜。

AI为单个问题进化，会产生一次性“AI大脑”吗？

想象一只“问题专用”的大脑：它在几小时内迅速生长，只为攻克一道前所未见的难题；任务一旦完成，这副脑回路可以被封存、合并，甚至丢弃。测试时训练的崛起，正把这种“一次性AI大脑”从科幻拉进工程现实。 TTT-Discover给出的范式转移很直白：别只靠更大的解码算力去“盲猜”，而是在测试阶段让模型真的学。它把开放科学问题铸造成一个MDP：状态是候选解，动作是模型生成的代码与推理，奖励是可验证的连续分数。与传统RL追求“平均更好”不同，它使用熵目标函数和KL预算去偏向“一次极好”的动作；并用受PUCT启发的重用机制，从缓冲区挑选最有前景的中间状态，延长有效时界，兼顾探索和利用。权重更新通过LoRA进行，只微调必要的高概率token，成本控制在单题数百美元量级。这套方法已证明不是“纸上谈兵”。在数学上刷新了Erdős最小重叠问题的上界，并提出新的自相关不等式；在GPUMode的TriMul任务里，生成的内核在多种GPU上跑赢最佳人类方案15%至50%；在AtCoder启发式赛题的历史榜上可夺魁；在单细胞RNA测序去噪中改进了MAGIC的表现。核心秘诀是：模型一边做题一边产出自己的“私有数据集”，把成千上万次失败与成功累积为定向经验，然后把偏好推向那条最优解路径。那么，它会不会真的催生“一次性AI大脑”？从操作层面看，答案几乎是肯定的。每个难题驱动一套专用适配器与权重偏置，它在问题分布的边缘地带进化，胜利后可被封存。这是面向分布外问题的“定制脑”，契合“刷题而非刷榜”的目标——在某个特定、可验证的奖励场景里取得绝对突破。但“一次性”不等于“一次用完”。有三种命运常见且务实。其一，封装成适配器入库：带上问题描述、奖励轮廓与中间轨迹的索引，作为后续近邻问题的先验，由检索或MoE门控按需加载，低成本复用与量化存储并不难。其二，蒸馏与巩固：把“那一次的伟大解法”通过可验证奖励的强化学习逐步并回基座模型，利用比例—积分式的熵调节避免稳态偏差与探索枯竭。其三，权重合并与去干扰：将多次单题适配器做低秩合并或正交化，尽量压缩冲突，保留可迁移的结构性偏好，减少灾难性遗忘。当然，它不是银弹。需要连续、可验证的奖励才能高效进化；稀疏或二元反馈仍待新型验证器与搜索-学习混合机制。验证器错配、奖励黑客、复现实验的随机性、以及算力与能耗预算，都是要在工程与治理上提前设计的护栏。好消息是，“Lucky Hit”效应与对比式评分能在一定程度上缓解标签噪声；而把历史解反复重用为起点，确实能把探索深度做实做厚。从更长远的视角看，“一次性AI大脑”像是智能体生态的细胞分裂：每道题孕育一个临时高度专业化的器官，再由检索、蒸馏与合并把“有用的突变”带回全局。谷歌的嵌套学习、连续体记忆系统，以及“学会学习”的研究线索，都在指向同一条路——用多时间尺度的更新，把短期可塑与长期稳态统一起来。等这条路走通，海量“单题进化”的微小胜利，会沉淀为可迁移的通识能力。所以，AI为单个问题进化，会不会让“一次性大脑”层出不穷？会，而且这未必是坏事。真正关键的是我们如何选择性地记住它们：把突破变成基座的可再用结构，而把偶然与噪声优雅遗忘。人类智能的高明之处，不在于从不遗忘，而在于记忆与遗忘的艺术。也许通向更通用的AI，正是从无数个“一次性的伟大”开始。

只求最佳不问过程的AI，会是“偏执的天才”吗？

把一台大模型“放进实验室”，只给它一个目标——拿到单题的世界最佳，不管过程是否优雅，会发生什么？答案是：它会像一枚热寻导弹，越飞越准，直到命中那颗最亮的星。这正是测试时训练的 TTT-Discover 正在做的事：在测试阶段把权重也作为可控变量，用强化学习和熵目标去追“一个伟大解”，而不是“很多还行的解”。这套方法把开放科学问题刻画成一个可验证的游戏：状态是候选解，动作是模型继续写下去的代码或推理，奖励是连续可度量的好坏。不同于传统RL追求平均表现，TTT-Discover用熵目标显式偏向“最大奖励动作”，再用KL预算防止暴冲；用受PUCT启发的“状态重用”，从历史里挑出最有潜力的“半成品”，继续打磨，既利用又探索。它还用LoRA在测试时微调，只对高概率token施加小而有效的改动，循环“挑选—生成—评分—更新”，把失败和成功都存入缓冲区，等于为一题现场造出一份“私有训练集”。偏执吗？在某些维度上，是的。它承认并拥抱“极致导向”的偏好：为刷新单题上限而牺牲平均稳健。这种“结果至上”带来惊喜——数学上给出Erdős最小重叠问题新界（较先前系统提升幅度达16倍）、GPU内核工程里比最佳人类内核快50%以上、在AtCoder启发式任务上若及时提交即可登顶、单细胞RNA-seq去噪达到SOTA。多位领域专家对结果给出正面评述，研究者也直言“学习不应该在训练结束时停止”。从工程与科学的角度看，这种“单点极限思维”非常对路。但“只求最佳不问过程”的另一面，是你确实在与熵衰减、模式坍缩与脆弱性赛跑。奖励一旦可验证但狭窄，模型可能沿着可量化的梯度一路猛冲，忽略多样性，甚至出现“奖励黑客化”的风险；换到稀疏奖励、二元评价或不可验证领域，这种极端利用会迷航。为此，TTT-Discover并非真的“不问过程”：KL惩罚维持必要探索，PUCT评分关注“从此处能走到多好”而非均值，在线/离线训练采用比例或比例积分控制让目标熵自适应回稳，“Lucky Hit”式的对比验证降低噪声标签的误导。这些设计，是在“追极致”的轨道上，尽力守住不会偏航的护栏。更有意思的是，来自推理训练的证据提醒我们：过程结构也会塑造“极致”。强制按从左到右的序推进思考（而非任意顺序“灵活填空”），反而让模型在数学与编程推理上更有潜力，说明严谨的生成约束能为探索留出真正关键的分叉。这意味着，“不问过程”的极致并非普适真理；当难点在逻辑链条和中间变量，过程本身就是通往最优的梯子。如果担心“偏执成魔”，实践上可以把边界再往前画几道线：把可验证的奖励放在环外再加一个“守门员”（多重校验器与鲁棒度测试）；把“找到最优”与“保持多样”做成双目标，配置探索奖金与去相关采样；用快照与回滚限制权重漂移，把LoRA当“临时外骨骼”而非永久改造；设定预算与停机准则，必要时把人引入回路作价值判别。在那些不可度量“好坏”的任务上，宁愿慢，也不要瞎快。所以，它会是“偏执的天才”吗？在可验证、可度量、目标单一的赛道上，它更像一名短跑冠军或极限攀登者——专注、执拗、惊艳；在充满模糊与价值权衡的开放世界里，它可能变成只认一个北极星的旅人，跑得快却不一定到达你想去的地方。真正聪明的系统，不是把过程抛诸脑后，而是让“结果导向”与“过程守恒”共存：用明确的度量去点燃野心，用结构化的约束去保留可能。科学从不排斥偏执，但好科学懂得给偏执设定边界；当我们为“一题最优”喝彩的同时，也别忘了问一句——这条通往巅峰的路，能被复现、被理解、被信任吗？

一次探索成本数百美元，AI发现会成富人游戏吗？

想象一台“自我试错”的AI，像年轻的研究员，一边写代码一边做实验，每次失败都立刻学到新本领，再冲下一次更聪明的尝试。代价？对单个问题投入几百美元的计算预算。听上去像“富人游戏”？也许你会惊讶：答案并没有那么悲观。这次引发讨论的，是一种叫 TTT-Discover 的新范式。它不是在训练阶段把模型一次性“炼成”，而是在测试阶段边试边学：针对某一道具体题目，用可验证的奖励信号驱动强化学习，在线更新权重。它把问题当作一个决策过程来走，重用历史尝试，用偏好“极优解”的熵目标和受 PUCT 启发的状态选择去逼近单点突破。这样的“测试时训练”，在数学上给出新界，在 GPU 内核工程上跑赢顶尖人类方案，在算法竞赛和单细胞 RNA 去噪上都拿到了 SOTA。它的试验平台是开源 120B 模型加上参数高效的 LoRA，单题预算通常是数百美元级别。这个价格到底贵不贵？换个尺度看：请一天资深工程师或数理专家的费用，远高于一次 TTT-Discover 的“冲刺”。而且它的目标是“一个伟大的解”，不是许多平庸解——一旦命中，边际价值常常超过成本。更重要的是，成本曲线在持续下行：过去两年，同等能力的推理成本降了数百倍，硬件价格年降约三成，能效年提升可达四成。以主流开源生态为例，MoE 与量化把“每次激活的参数”做得更省；像“只调高概率 token”、“小秩 LoRA”这样的技巧，把每次学习的成本压得更细。即便今天你需要用 120B 模型试出突破，明天也可能把经验蒸馏进小模型，用几美元在本地复现。更值得注意的是，这种范式反而绕开了 AI for Science 最大的门槛：数据。传统方法卡在“分布外无数据可练”，而 TTT-Discover 通过“生成动作—自动验证—写入缓冲—立刻更新”，在特定问题上自产“私有数据集”。对于可度量的任务（数学验证器、编译—单测—计时的工程题、仿真可评的算法设计、生物去噪的连续指标），它把“没有标注”的难题，变成“付得起的验证”的工程化流程。当然，前沿训练的军备竞赛依旧昂贵——新的闭源旗舰训练一次就要上亿美元、未来甚至十亿美元级；到 2030 年，顶级集群会烧到千亿美金量级。但那是“造火箭”的成本，不是“用火箭”的成本。开源模型、云端算力与便宜的 API 价格，叠加越来越聪明的搜索与学习策略，正在把“用火箭做一次实验”的门槛不断拉低。你完全可以采用“分级算力”策略：小模型先勾勒思路与提示，大模型再做少量高价值的集中冲刺；对相似问题重用缓冲区、复用 LoRA 适配器；设置动态熵预算与早停规则，把“几百美元一次”压到“几十美元一次”，把一次性投入变成可复用的“知识资产”。会不会仍然成为少数人的游戏？现实而乐观的判断是：在“可验证奖励”的科学与工程问题上，不会。开放工具链、社区数据广场、众包标注与高校—研究院的共享平台，正在把“评价器”和“数据加工”做成公共基础设施。真正的稀缺，开始从算力转向“好的奖励函数设计”“好的问题刻画”“好的搜索起点”。这也解释了为何许多开源团队与小公司，能用有限预算做出高价值的算法和工程突破——关键是把钱花在“可验证、可重用、可迁移”的环节。当然，仍有边界。TTT-Discover 现在主要适用于连续、可验证的奖励场景；对于稀疏奖励、主观评价或不可验证的开放问题，它还需要新机制。即便如此，它已经给了我们一个清晰的方向：通过在测试时引入学习，在单点任务上实现快速定向进化，把“分布外”的黑箱变成可度量、可优化的系统工程。所以，当你问“几百美元一次，会不会把 AI 发现变成富人游戏？”不妨也问一句：当成本每年下降、方法每月进化、经验可被蒸馏复用时，真正决定门槛的，还是钱吗？也许，未来科学的“入场券”，更多掌握在能定义好目标、构建好验证、敢于迭代的人手里。算力会越来越像电力——重要，却不是灵魂。灵魂在问题本身，在我们如何把“一个伟大的解”的标准，变成每个人都能调用的公共规约与工具链。这既是技术路线的选择，也是文明如何分配“发现权”的命题。

当AI学会进化，科学家的角色会变成什么？

当实验室里出现一个永不疲惫、会“自我进化”的同事，会发生什么？你给它一个难题，它不再只是多试几次，而是边失败边“长记性”，即时更新自己的参数，从盲猜变为定向进化——这正是测试时训练的魔力。像 TTT-Discover 这样的方法，把单个科学问题做成一个小型“世界”：解法是状态，生成是动作，奖励可连续评估，目标不是平均水平，而是“一次惊艳的突破”。它已经在数学上给出新界、在 GPU 内核工程上跑赢人类高手、在算法竞赛和单细胞 RNA 去噪上达到 SOTA。于是问题来了：当AI会进化，科学家的角色会变成什么？更像导演与教练，而非独奏者。AI 能在测试阶段用强化学习更新权重，科学家要做的是“设计赛场与规则”：把问题表述成可验证的环境，定义奖励与约束，决定如何在探索与利用间取舍（从温度、KL 预算到“优先扩展最有潜力的状态”这类 PUCT 思路）。这本质上是把“好问题”与“好评判器”编码出来，让模型把计算力用在最值得的方向。哪怕今天系统主要适用于连续、可验证的奖励，科学家依然是奖惩机制的立法者。更像解释者与因果裁判，而非记分员。AI 可以在两天内破解困扰十年的谜题，也能预测几十万种稳定晶体结构，但“为何正确、机制何在”依旧需要人类来给出可被科学共同体接受的解释。药物发现系统提出的候选分子，需要专家理解潜在通路；跨学科假设再大胆，也要通过实验与理论的交叉验证。这一环节，人类判断的是可证伪性与因果链条，而不是分数高低。更像协同的指挥家。虚拟实验室与联合科学家系统把多智能体编成团队：有人发明新思路，有人反思批评，有人做去重与排序。事实表明，这样的组合常常更有新意，甚至能提出与未公开发现一致的假说。科学家开始像指挥家——为不同“AI 乐器”编排分工、接口与节奏，把跨学科的复杂工程化整合为可复现的流程。更像开放生态的园丁。研究显示，AI 工具扩张个人产出，却可能收缩群体注意力：后续互动减少约两成，“知识广度”中位数更小。要避免“孤独的拥挤”，科学家需要推动开放数据、可复现实验与共享模型，建设面向AI驱动发现的新型平台与评审规范，让算力与数据更公平地流动，让有价值的冷门问题也能被“看见”。更像价值与安全的守门人。自我进化带来的速度令人振奋，也让人敬畏。从“模型宪法”、对抗风险治理，到对算力与自动化边界的设定，科学家必须定义“能做什么、什么时候停、为谁而做”。这不是刹车，而是方向盘——没有价值约束的加速，可能把我们带离科学的初心。能力侧画像也在变化。未来的科学家需熟悉问题建模、奖励设计、校验器构建、机器人实验平台、跨模态数据工程与人机协同流程设计；会“调参”，但更会“调研”与“调度”。职业形态上，提示工程、AI 道德官、可持续AI分析、AI维护与教育等角色将与传统学术岗位并行，一个团队既懂领域机理、又懂智能方法的“双栖人才”将更吃香。别忘了人的“品味”。实践告诉我们，AI 能写对，但未必“有趣且重要”。如何训练与评估“科学品味”，如何让系统在探索边界而非巩固共识上发力，决定了科研版图是收缩成星型，还是编织成多联通的网。这里的人类判断，是创造力的最后一公里。所以，当AI学会进化，科学家不会被替代，而是被“抬升”到更高的杠杆点：提出好问题，制定好规则，组织好协作，给出好解释，守住好边界。工具越强，选择越重要。也许真正的变革，不在于AI能多快找到答案，而在于我们能否提出更值得被加速的问题——以及敢不敢把人类的价值观，清晰而坚定地嵌入那条通往未知的探索曲线。

除了写代码，AI能用同样方法写出千古绝句吗？

如果一台会写GPU内核、会解数学难题的机器，被丢进一间“即写即学”的诗社，它能不能靠着不断试错与自我更新，炼出一首千古传诵的绝句？这正是“测试时训练”带来的想象力：在问题发生的当下，让模型边创作边更新权重，向“一次惊艳的解”冲刺，而不是在平均水平上磨洋工。 TTT-Discover的核心是把开放问题变成一个可反复尝试的过程：从缓冲区挑选最有潜力的起点，生成新方案，用可验证的奖励打分，然后立刻更新权重，周而复始。它采用偏好“最大奖励动作”的熵目标函数，并用受PUCT启发的重用策略，让模型更快逼近极值。在数学、算法和GPU内核里，这套方法之所以有效，是因为“好坏一眼能量化”：跑分更高、速度更快、界更紧，奖励是连续而可靠的。落到诗歌，关键障碍不是模型不会写，而是“奖励不好量化”。“千古绝句”的价值，往往要靠时间、文化记忆与人心回响来证明，这在当下不可验证，正是TTT-Discover目前标注的禁区：适用于连续、可验证奖励，不擅长稀疏或不可验证的审美目标。换句话说，想直接把它搬来炼就“千古”，目标函数就先难住我们。但说到“能否用同样思路写出更像样的绝句”，答案是乐观的。我们可以把不可验证的大审美，拆解成一套可验证的小目标：合乎近体诗的平仄与押韵、颔颈对仗的工整、用典的合法、重复字的惩罚、主题一致性的奖励，再叠加多评委偏好模型与读者实时投票，形成“半可验证”的奖励场。状态可以是“未完诗句+意脉说明”，动作是下一字或下一句，验证器即时给分；PUCT负责从“高潜力半成品”继续推演；熵目标函数把学习重心压向少数惊艳的版本；KL约束与比例—积分控制维持探索，不让模型因追分而窒息。这与代码竞赛的做法同构：只是把“跑分快慢”换成“格律合规+审美偏好”的综合分。经验也支持这种路径的可行性。已有系统能稳定生成合律的绝句与宋词，大规模用户盲测中，读者不易分辨AI与人类作品，且往往更偏好“更直白、易感受”的AI诗。测试时搜索本已能通过多样尝试找到更佳版本；若引入测试时训练，对高分样本即时微调，模型会更快学会“这首诗该如何更动人”。此外，“幸运一击”现象意味着即便评委意见有噪声，只要对比机制健全，系统仍能从胜出的差异里抽取对的学习信号。然而，“千古”与“好看”之间隔着几重天。奖励错配会诱发“为分数而写”的投机：押得更齐、对得更正，未必更有灵魂；偏好模型的口味，也可能收窄语言的边界，出现审美同质化。再加上循环使用AI生成样本训练的“模型崩溃”风险，长期迭代若缺乏人类高品质语料的锚定和多元评审，可能越学越像标准答案，越写越失去锋芒。所以更稳妥的答案是：用同样的方法，AI极有希望在短时间内写出“技术上过硬、读者普遍喜欢”的现代“佳作绝句”，甚至在盲评里频频胜出；但要被历史命名为“千古”，仍需跨过不可量化的门槛——时代语境、独创意象、传世机缘与长久流传的检验。TTT-Discover提供的是一台强力放大镜，帮助我们在一片可能性里更快淘到金，可它无法替代时间与人心的裁决。也许真正值得期待的图景不是“AI单挑千古”，而是“人机共炼千古”：让AI在测试时学习里承担格律与结构的极致打磨，把更多探索力留给人类去开新意、造新境、立新典。等到某一天，技术的分数与人心的分数不再相悖，我们或许会看到第一首由人机协作写成、经岁月检验仍回响不息的绝句。那时，问题不再是“AI能不能”，而是“我们愿意如何与它一起，定义何为不朽”。

AI的万次失败换来灵光一现，这算“智能”吗？

当你听到“灵光一现”，会想到天才、直觉、偶然吗？在最新的AI研究里，这道“灵光”不再靠天赋加成，而是用成千上万次可验证的失败炼出来的火花。斯坦福与英伟达团队提出的 TTT-Discover，把“测试时训练”变成了一台发现机器：当场试错、当场学习、当场进化，直到从混沌里拎出一个前所未有的好答案。这不是盲目暴力穷举。TTT-Discover把开放问题建模成一个马尔可夫决策过程：状态是候选解，动作是大模型生成的代码与思考token，奖励来自可度量、可验证的连续评分。它用的是开源 gpt-oss-120b，经由 LoRA 做参数高效微调，实际运行通过 Tinker API，一道题的探索成本大致是数百美元。与常见的“测试时缩放”（只改提示不动权重）不同，它在测试中直接更新模型参数，把失败变成有方向的梯度，把历史尝试存入缓冲区，等价于为这道题动态生产了一个“私有数据集”。更关键的是，它的学习目标与搜索策略被专门为“发现”而设计。传统强化学习追求平均性能；TTT-Discover采用熵目标函数，明确偏向“奖励最高的动作”——目标是一个极优解，而不是若干平庸解。在搜索上，它借鉴 PUCT 的重用思想，不看均值而看“从这个状态能走到的最大奖励”，并用先验鼓励从高奖励状态继续深挖，再通过KL约束维持必要的探索。这套机制让尝试不是无序散射，而是像科学家在实验台前迭代：从已知起点出发，生成—评估—更新—再出发，周而复始，性能不断逼近极限。它的成绩说明了价值：在数学上给出Erdős最小重叠问题的新界并提出自相关不等式；在GPU内核工程的公开竞赛中超越最佳人类提交，显著加速；在AtCoder启发式题库上生成的算法达到历史第一档；在单细胞RNA测序去噪中改进流行算法，达成SOTA。多位领域专家对结果进行了审阅与评论。这些不是“会写作文”的表面花活，而是在可检验的硬任务上把人类高手也拉下了马。那么，回到问题：AI的万次失败换来的那一瞬间突破，算“智能”吗？从功能主义视角，智能是“在环境反馈下，实现目标并自我改进的能力”。TTT-Discover满足了这一定义：它能把失败转化为偏好更新，把经验沉淀成可重用的状态库，并在分布外场景中主动制造数据、修正策略。它并非赌运气的“lucky hit”，因为奖励是连续、对比式的，可把好坏差异清晰地反映到参数上；PUCT的重用与KL的约束使探索既大胆又不失稳健。这更像是系统化的试验科学，而不是掷骰子。当然，它还不是“通才智慧”。它偏向“单点突破”，强调“one great solution”，可能牺牲跨任务的平均鲁棒性；它目前主要适用于奖励可验证、可连续评估的领域，像“写一首感人的诗”这种主观目标尚难驾驭；它需要不菲的计算预算，且对问题表述与验证器质量极其敏感。说它是“强力、可迁徙有限的发现智能”，或许更精准；说它拥有“理解”，还为时尚早。但别低估这种范式转向的意义。当模型不再把测试视为静态考试，而是把每次失败都回收为信息、把每次更新都指向更高的峰值，智能的边界就被往前推了一步。也许“灵光一现”的本质，从来不是天才的馈赠，而是把熵压缩成信息、把噪声提炼成结构的能力。人类靠长期试错成就科学，AI现在学会了在测试时自我进化。下一步，当这种方法走向稀疏奖励与不可验证领域，当记忆与反思机制与之耦合，也许我们该重新定义“聪明”——不是零失误，而是在有限预算下，把无数次失败折叠成一次必中的勇气与方法。

新知 - 大圆镜｜AI当场进化震惊学界：测试时学习开启自主科学发现新纪元？

对抗知识焦虑，从看懂这条开始

App 下载

想象一个考场，所有考生在进入考场前都已完成了全部学习，大脑知识已经“固化”。考试开始后，他们只能依赖既有知识解题。这是过去所有AI大模型的运作方式。现在，想象一个与众不同的考生，它在遇到一道难题时，竟能当场“打开”自己的头脑，重组神经连接，针对这道题进行“脑力升级”。哪怕解完这道题后，它对其他问题的处理能力会下降，也在所不惜。这听起来像是科幻电影，但这正是2026年初，由斯坦福大学、英伟达等顶尖机构联合发布的一项研究所揭示的惊人现实。这项名为TTT-Discover的技术，正以一种颠覆性的方式，宣告着AI“只读时代”的终结，开启了一个AI能够“边思考边进化”的新纪元。

一场“考场大脑手术”

这项引发轰动的研究，其核心成果是提出了一种名为“测试时训练”（Test-Time Training, TTT）的全新范式。不同于传统AI在训练完成后权重参数就被“冻结”的模式，TTT-Discover允许AI在“测试”或“推理”阶段——也就是解决具体问题时——动态地更新自己的模型权重。

这彻底改变了游戏规则。过去，为了让AI更聪明，我们有各种方法：

上下文学习（In-Context Learning）：如同给考生一张写满提示的草稿纸，模型权重不变。
检索增强生成（RAG）：相当于给考生递小抄，让他查阅相关资料，模型本身能力没有提升。
思维链（CoT）：鼓励考生多打草稿，把解题步骤写下来，但大脑还是那个大脑。

而TTT-Discover则相当于一场**“考场上的大脑手术”。它通过测试时强化学习（Reinforcement Learning at Test Time）**，让模型在面对一个特定难题时，不断进行成千上万次的尝试。每一次尝试，无论成功还是惨败，都会通过环境（比如一个数学验证器或代码编译器）得到一个明确的评分。这个评分信号会立即通过反向传播，真实地修改模型的神经网络参数。模型在每一次迭代后，都会变得更擅长解决“这一个”问题。它在现场进化，而不是在回忆历史。

“不要泛化，去发现”

这种方法的哲学思想堪称激进。传统AI追求的是“泛化”，即训练一个模型，希望它能应对所有同类型的问题，像一个各科成绩都在80分的“通才”。但TTT-Discover的信条是**“不要泛化，去发现”（Don't Generalize, Discover）**。

在科学发现的尖端领域，人们需要的不是一个平庸的通才，而是一个能在某个点上突破人类认知极限的“偏科天才”。TTT-Discover正是为此而生。它不惜花费数百美元的计算成本，让一个中等规模的开源模型（gpt-oss-120b），针对一个问题进行极致的“过拟合”，最终成为解决该问题的“特种兵”。任务完成后，这个高度特化的模型甚至可以被“丢弃”，因为它已经为了单点突破而牺牲了通用性。

为了实现这一目标，研究人员设计了两大核心机制：

熵目标函数：不同于传统强化学习优化“平均奖励”，该函数明确引导模型去偏好那个能带来最高奖励的“神来之笔”，而非一条表现平平的解题路径。它的目标是找到一个伟大的解（One Great Solution）。
PUCT启发的重用机制：模型会将所有尝试（包括大量失败记录）存储在一个缓冲区中，构成针对该问题的“私有数据集”。它会优先从最有潜力的历史方案出发进行新的探索，同时又保持一定的好奇心，避免陷入局部最优。这就像一位科学家，既会沿着最有希望的路径深入，也不会忘记偶尔看看那些曾被放弃的冷门方向。

超越人类的惊人战果

理论的颠覆性必须由实践来证明。TTT-Discover交出的答卷堪称惊艳，在多个被认为是人类智慧高地的领域取得了突破：

数学：在困扰数学家多年的“埃尔德什最小重叠问题”上，TTT-Discover打破了沉寂多年的记录，构造出了一个拥有600个分段的极其复杂的非对称函数。相比之下，此前人类最优秀的构造也只有51段。它探索了人类因“认知偏见”而难以触及的高维数学空间。

工程：在GPU内核优化竞赛中，TTT-Discover编写的代码比顶级人类工程师的作品在A100芯片上快了近2倍。它通过人类难以想象的复杂运算融合与精度压缩，将硬件性能压榨到了极限。代码可读性极差，但极致高效——毕竟，代码是写给机器跑的。

算法：在世界顶级的AtCoder算法竞赛中，它生成的解决方案超越了所有人类金牌选手的历史最佳成绩。
生物：在单细胞RNA测序的去噪任务上，它同样达到了新的SOTA（State-of-the-art）水平。

这一切，都是基于一个开源模型，每解决一个世界级难题的成本仅为数百美元。这无疑为科学发现的民主化提供了新的可能性。

学习永不停止：背后的远见

TTT-Discover的诞生并非偶然。该论文的通讯作者、斯坦福大学博士后及英伟达研究员Yu Sun，自2019年以来就一直是“测试时训练”理念的坚定布道者。他的核心信念是：“学习不应该在训练结束时停止。” 这一理念挑战了整个深度学习领域的底层范式，试图将AI从一个“静态的知识库”转变为一个“动态的、持续成长的过程”。

未来的地平线与待解的难题

尽管TTT-Discover取得了巨大成功，但它并非万能灵药。目前，它主要适用于那些能够提供连续、可验证奖励信号的场景，比如代码运行得有多快，数学边界有多低。对于那些奖励稀疏（比如一个数学定理最终是否被证明）或无法验证（比如生成一首伟大的诗）的领域，它还面临着巨大挑战。

此外，每个问题数百美元的成本虽然对顶尖科研来说是九牛一毛，但对于普及应用仍是障碍。然而，这些局限无法掩盖其划时代的光芒。

TTT-Discover的出现，不仅是一次技术突破，更是一次深刻的哲学叩问。它让我们重新思考智能的本质。AI不再仅仅是人类知识的“复读机”，它正在成为一个能够与我们并肩，甚至超越我们，在未知领域进行探索与发现的“思想家”。一个AI能够根据眼前的挑战即时进化、持续学习的时代，已经拉开序幕。这不仅将重塑科学发现的范式，也必将深远地改变人类与智能的关系。