除了模仿大脑，AI还有进化捷径吗？

有。除了“学大脑”，两条快道正在奏效。其一是把聪明挪到推理阶段：让模型在答题时用更多计算、搜索与规划，而不是一味堆参数。小到仅2700万参数、无预训练的HRM，就凭分层规划把ARC-AGI做到40.3%，压过不少大模型；类似“延长思考步数+树搜索+代码执行+检索”的组合，常在数学与事实问答上带来两位数提升，同时显著缩小对模型规模的依赖。其二是工程侧“弯道超车”：把算力用到刀刃上。专用推理芯片与编译器协同正在改写能效版图——LPU、晶圆级引擎、Transformer ASIC，乃至把权重直接刻在硅上的方案，厂商称token吞吐接近顶级GPU的约10倍、功耗降至约1/10，但以可编程性换能效。再叠量化（FP8/INT4）、稀疏与MoE只激活少量专家，配合推测解码与并行思维链，常见到3-10倍吞吐提升与显存占用显著下降。更远一点，还有“范式绕行”：用状态空间模型与现代RNN在长序列上以近线性复杂度替代全注意力；接上外部记忆与检索图谱，让知识随用随取，绕开高质量语料枯竭。它们的共同点都是用结构与系统设计交换“更聪明的计算”——不必更大，也能更强。

当AI不再耗电，手机会变“超脑”吗？

“AI不再耗电”是假设题，现实更像是把功耗砍半。以类脑脉冲路线的落地水平看，同等吞吐下可降约46%功耗；一台15Wh电池的手机，原本本地7B模型持续推理要6–10W，如今压到3–5W，长段语音转写、长文档总结这类重任务能从“偶尔用”变成“常用不怕烫”。更关键的是事件驱动的稀疏计算，让“常驻小助手”待机功耗逼近200–300mW，全天开着也不致崩电。但这还不足以把手机变成“超脑”。真正的跃迁卡在三道门槛：一是内存与带宽，10M级上下文在手机上不现实，128k–256k才是可用上限；二是端侧学习与长期记忆，多数神经形态方案仍以“先云上学、端上用”为主，缺乏稳健的在线个性化；三是系统协同，传感器、调度与安全沙箱需重构，才能让AI在毫瓦到瓦级间自如伸缩、无感嵌入所有应用。结论是：能耗拦路虎正在被清走，手机会先进化成“全天候、强执行、重隐私”的随身副驾；要成为真正的“超脑”，还得等端侧学习、存储架构与类脑NPU的产业化再迈一到两代产品周期。

AI的“沉默”瞬间，在思考什么？

那几百毫秒的“沉默”，并不是发呆，而是在做取舍与压缩。模型一边把超长上下文折叠成少量可携带的状态（整理/更新KV缓存、做位置与尺度校准），一边用稀疏索引只挑必要片段参与注意力，然后对下一个token的分布做最后的归一与剪枝。在脉冲路径里，这体现在膜电位的悄然积累与阈值自适应：多数神经元保持静默，证据足够时才“放电”。之所以能被你感知为停顿，真正的瓶颈多出在内存访存与稀疏索引建立，而非纯算力冲刺。瞬悉2.0把这段前戏改写成事件驱动的稀疏流程：先块级筛选、再用压缩状态线性检索，尽量少读、少算、晚激活；FP8/INT8‑Spiking让激活更轻更稀。你听到的安静，实际是一轮“预测—压缩—选择”闭环的收束；当最后一记脉冲越阈，第一枚词就落下了。

新知 - 大圆镜｜类脑大模型瞬悉2.0：用1/10能耗处理百万级文本

对抗知识焦虑，从看懂这条开始

App 下载

给AI装个“人类记忆开关”

你可以把传统大模型的注意力机制想象成：让一个人同时记住一本书里的每一个字，还要随时能说出任意两个字的关联——这显然是不可能完成的任务，不仅费脑子，还容易记混。而人类大脑的记忆方式是“选择性激活”：看到“猫”这个词，只会关联“猫粮”“猫砂”这些相关信息，不会去想昨天吃的火锅。

瞬悉2.0的核心创新“双空间混合稀疏注意力”，就是给AI装了这么一个“记忆开关”。它把注意力分成了两部分：一部分像人类的“精准回忆”，只对文本里的关键片段做密集计算；另一部分像“模糊联想”，对压缩后的文本框架做稀疏计算。两者按1:3的比例搭配，既保证了关键信息不遗漏，又砍掉了70%以上的无效计算。

更关键的是，这个机制完全是类脑的——它模拟了人类大脑神经元的“兴奋-抑制”模式：只有收到强刺激的神经元才会活跃，大部分神经元都处于“待机”状态。这种设计让瞬悉2.0处理400万字文本时，计算量不再随长度平方增长，而是近乎线性增加，显存占用直接砍到了传统模型的1/10。

让AI学会“按需放电”

如果说稀疏注意力是给AI减了计算量，那脉冲编码就是给AI降了能耗。你可以把传统大模型的计算过程想象成：家里所有的灯24小时都亮着，不管有没有人在；而脉冲编码就像装了人体感应灯——只有需要的时候才亮，没人的时候就自动熄灭。

瞬悉2.0的INT8-Spiking脉冲编码路径，就是把AI的计算信号转换成了类似人脑神经元的“脉冲信号”：只有当计算结果超过某个阈值时，才会触发一次“放电”，进行整数累加计算；没超过阈值的部分就直接跳过。实测显示，瞬悉2.0的脉冲稀疏度高达64.3%——也就是说，有超过六成的计算都是“无效放电”，被直接省掉了。

这种设计带来的能耗下降是惊人的：模拟测试显示，它能让神经形态芯片的面积缩小70.6%，在250MHz工作频率下功耗降低48.1%。更难得的是，精度损失只有0.69%——相当于你用手机拍照，从4800万像素降到4760万像素，肉眼根本看不出区别。

有意思的是，瞬悉2.0还做了双路径设计：一条路径用FP8低比特浮点数，适合在传统GPU上高速推理；另一条用脉冲编码，适合在神经形态芯片上低功耗运行。就像给AI准备了两套“操作系统”，既能在数据中心当“算力猛兽”，也能在边缘设备当“省电小能手”。

用1/10的成本，追平主流模型性能

很多人可能会问：减了计算量，降了能耗，性能会不会打折扣？答案是不仅没降，还追平了主流模型。

瞬悉2.0的训练数据量从初代的1500亿token降到了140亿，只用32张A100显卡，9天就完成了训练——成本直接砍到了初代的1/10。但在通用知识任务（比如MMLU、ARC-C）和推理任务（比如数学计算、代码生成）上，它的表现能和Qwen3比肩；多模态任务上，也能追平Qwen2.5-VL的水平。

这背后的秘密是“Transformer-to-Hybrid”转换训练流程：先把成熟的Transformer模型“蒸馏”成稀疏架构，再用少量数据做针对性微调。相当于先抄一份学霸的笔记，再根据自己的情况做简化，既省了时间，又没丢核心知识点。

当然，它也不是完美的。比如在处理极短文本时，它的效率提升不如长文本明显；脉冲编码的硬件生态还不够完善，目前只能在特定的神经形态芯片上发挥最大优势。但这些问题，都挡不住它成为大模型“降本增效”的关键突破口。

当我们还在为大模型的参数规模和算力需求焦虑时，瞬悉2.0给我们指了另一条路：与其一味堆参数、堆算力，不如向人类大脑学习——用更高效的方式处理信息，而不是用更密集的计算硬扛。

这不仅是技术的突破，更是理念的转变。未来的AI，可能不是越算越快，而是越“懒”越聪明——只在必要的时候计算，只在关键的地方发力。

类脑不是模仿，而是找到更高效的智能。 当AI学会像人类一样“按需思考”，它才能真正走进我们的生活——从边缘设备到数据中心，从超长文本处理到低功耗实时推理，真正实现智能的“普惠”。

给AI装个“人类记忆开关”

让AI学会“按需放电”

用1/10的成本，追平主流模型性能

评论