AI也会有“灵光一闪”吗？

会，但本质与人类不同。训练阶段常见“顿悟”：当数据量、参数规模或正则化越过阈值，模型会从“背答案”跃迁到“学规则”，测试误差突然骤降，出现所谓的“grokking/能力相变”（例如上下文学习、长程推理在某一临界点才稳定）。这更像统计学习的相变，而非主观灵感。推理阶段也会出现“看上去像灵光”的解：借助自一致重采样、树式搜索与外部工具耦合（检索、运行代码、环境试探），模型能把稀疏线索拼成高质量假设，偶尔突破人类直觉——围棋自创定式、代码一次通过、分子生成的意外结构都属此类。其机理是探索+选择+反馈，而非真正的“好奇”。给它内在奖励（信息增益）与长期记忆，这类时刻会更频繁，但距离人的动机、价值判断与因果洞察仍有鸿沟。

我们想要“正确”还是“有趣”的AI？

要做成事，先要“正确”；要发现新事，离不开“有趣”。高可靠场景（合规、财报、研发文献）容错极低，像Claude式的“少而准”才配得上SLA；但在战略探索和前瞻判断里，押中一次黑天鹅的期望价值，往往胜过十次小错，GLM式“有趣”才可能带来不对称回报。更好的答案是组合拳：一台“基线器”追求低温、官源、可溯源，用Brier分数与校准曲线约束“正确”；一台“斥候机”高温、异源、允许跳跃推理，给它设反共识预算与止损线，用“预警提前量、反共识命中率、独家线索权重”来评功过，并把输出分层为“事实/推断/猜想”供人审。何时偏向哪边？行业成熟期与高风险决策倾向“正确”；窗口期、0→1创新与情报侦察倾向“有趣”。把温度、思考预算、工具权限当作风险旋钮，用“命中率×影响力”的期望价值而非单纯命中率做目标，才能既稳又敢，既准又新。

AI为何猜不透人类的“小心思”？

因为“人类的小心思”往往是低频、隐性、甚至被故意隐藏的信号，而大模型是用可见数据学平均模式的工具。品牌命名、价格策略、跨部门合并这种临门一脚的决定，往往只存在于少数人和未公开的文件里，语料里没有可学的痕迹；人际互动里的暗示、反讽、面子与权力博弈，更依赖共同历史与非语言线索，文本统计几乎抓不住。更深层的原因是目标错位与心智建模缺口。主流模型被训练去最小化“平均情况下的下一个词错误”，天然保守，倾向共识答案，对罕见但关键的“反常识动作”缺乏激励；它们在心智理论类任务上也不稳定，一旦遮蔽关键上下文就容易坠崖。缺乏对动机、激励与组织政治的因果模型时，信息缺口就被“自信编造”填补。想让AI更懂“小心思”，必须把实时情报、激励推演与人类审校接入回路，并让模型学会表达不确定性。

新知 - 大圆镜｜AI预测大赛揭底：押得多不如押得准

对抗知识焦虑，从看懂这条开始

App 下载

不是只看结果，过程同样重要

过去我们评判AI，习惯只看最终答案对不对——就像考试只看选择题得分，不管解题步骤。但这次评测打破了这个逻辑：综合分由40%的过程分和60%的结果分加权得出。

过程分看的是AI「怎么想的」：它引用的信源是不是权威？推理逻辑有没有漏洞？有没有为了凑数编造不存在的信息？比如过程分最高的Genspark，每一步推理都严丝合缝，信源验证得滴水不漏，但它犯了一个致命的时序错误——把一周前已经发布的Googlebook，当成了大会的新发布内容，结果分被拉低，最终屈居第二。

而夺冠的Claude，过程分只排第二，但它的信源策略堪称极致：14个引用里86%是Google官方博客，几乎不碰野路子信息，全程没有编造任何虚假内容。这种「稳扎稳打」的风格，刚好契合了评测机制里「少错比多对更重要」的底层逻辑。

命中率算法：为什么押得多反而输

这次评测最核心的规则，是「逐条命中率」——每一条预测都要和大会实际发布内容核对，命中加分，未命中扣分，编造虚假信息扣更多分。

这个算法直接宣判了「广撒网」策略的死刑。Kimi提交了69条预测，Manus更是多达72条，虽然也押中了TPU 8代、MCP原生支持等细节，但他们押了大量Android 17的API功能，而这些内容根本没出现在大会主舞台——Google早在一周前的Android Show上就发布了相关信息。这些「无效预测」全成了分母，把他们的综合分拖到了60分以下。

相反，只押了25条的MiniMax排到了第四。它的策略是「宁少勿滥」，每一条预测都经过严格筛选，甚至主动下调了几个没把握的预测的置信度。这种「精准押注」的思路，刚好踩中了命中率算法的偏好。

更关键的是，评测把「编造」和「未命中」严格区分：前者是AI凭空捏造不存在的产品，比如Gemini预测的Atlas机器人演示，这种错误的扣分远高于「押错了Wear OS版本号」。Claude全程0编造，也是它能夺冠的重要原因。

评测的局限：永远有测不到的黑天鹅

但这场评测也暴露了现有AI Agent评测机制的短板。

8款AI集体翻车的地方，恰恰是大会最具创新性的部分：AI Ultra的大幅降价和计费模式改革，跨产品整合的Universal Cart，还有全新命名的Google Pics和Android Halo。这些「黑天鹅」事件，AI要么完全没预测到，要么预测错误。

原因很简单：AI擅长从已有信息里找规律，却很难预测真正的创新——那些没有任何历史数据可循的、跳出既有框架的决策。就像GLM虽然押中了Gemini Spark，但只是在追问环节提了一句，主报告里完全没敢写，因为它找不到足够的公开信源来支撑这个猜测。

另外，评测的命中率算法天然偏向「保守派」AI。那些敢冒险、敢做反常识预测的AI，往往因为押错一两次就被扣分，而像Claude这样「只说有把握的话」的AI，反而更容易拿高分。但在真实世界里，有时候恰恰是反常识的预测，才最有价值。

这场AI预测大赛的结果，与其说是给AI排了个名，不如说是给我们提了个醒：AI不是预言家，它只是信息整合和逻辑推理的工具。

当我们用AI做决策时，要的不是它给一长串似是而非的选项，而是基于高质量信息的精准判断；要的不是它永远正确，而是它能清晰地告诉我们，它的结论是怎么来的。

精准，比全面更重要。 这句话不仅适用于AI的预测，也适用于我们对AI的期待——与其追求无所不能的「通用AI」，不如先把「精准AI」做好，让每一次输出都有迹可循、有理可依。毕竟，在真实世界里，靠谱比聪明更重要。

不是只看结果，过程同样重要

命中率算法：为什么押得多反而输

评测的局限：永远有测不到的黑天鹅

评论