把AI折叠进手机，这技术还能折叠什么？

把AI折叠进手机只是开端。极低比特+QAT/蒸馏能把1–3B专用模型压到≈1–2GB常驻，下一站是车载座舱、AR眼镜、安防摄像头、家用路由器/IoT网关、轻型机器人与路侧单元。再叠加MoE与稀疏加载，8–16GB NPU内存的设备即可在端侧承载更实用的多模态与离线对话。这项技术折叠的不止体积，还在折叠带宽、能耗与合规成本：就地推理让原始视频/音频留在端上，只上传结构化结论，回传流量可降一个数量级；隐私不出端，审计更简单；1.58-bit在多项实验中的能效常达FP16的2–3倍，电池设备续航更稳，AIGC落入摄像头与耳机才真正“好用”。要规模化“折叠”，还得过三关：激活与KV cache仍是内存大头，需做激活4/8bit、KV压缩与PagedAttention；算子与NPU不匹配会吞掉性能，必须软硬件联调与自定义算子；训练侧用联邦蒸馏在不共享数据下持续进化模型。补齐这些拼图，被折叠的将是车、眼镜、家庭摄像头与路由器，以及遍布城市的边缘节点。

当手机拥有超强大脑，会是管家还是新物种？

短期看，它仍是“超级管家”。低比特大模型把推理搬到端上，带来秒速响应与隐私收益，但受限于能耗、散热、传感器闭环与操作系统权限模型，手机上的 Agent 更像跨应用的调度员：代你检索、规划、下单、填表，且始终被前台授权与沙箱隔离所牵引，难以形成持续自主的“自我”。何时跃迁为“新物种”，取决于三道门槛：持续性与人格（长期本地记忆与价值观对齐，能在你离线时自主追踪目标）、具身与行为闭环（多模态感知+本地规划+跨设备执行，甚至驱动家居/车载外设）、经济与责任接口（可直接持有支付/签约权限，并接受审计与理赔）。技术触发点会是低比特+稀疏MoE带来的“有效60B级”本地推理、端侧RAG与个人知识库、可信执行环境的安全托管，以及OS从“App中心”转向“Goal中心”。这三关齐备，手机才算越界为“半具身数字个体”。现实判断：未来两年更像管家，特定人群与场景会率先“半新物种化”。观察信号包括系统级后台常驻代理、跨端协同默认开启、合约式长期授权、审计/保险产品与数字身份协议落地。一旦这些成为常态，我们就不再“使用”手机，而是在与一个常伴身侧的数字同事共处。

AI只用三个数思考，为何还这么聪明？

“三个数”只发生在权重上。推理时，激活、累加、归一化多用更高精度；每组权重还有可学习缩放因子，近似为 q∈{-1,0,1}×s。Transformer更看重“方向”和稀疏连通，符号决定高维划分，尺度修正细节，所以三值不等于“只有1.58比特的智能”。聪明来自训练与冗余。QAT+蒸馏把量化噪声纳入优化，STE让梯度穿过三值门，异常值用组尺度或少量高精度通道兜底。大模型高度过参，许多权重可归零而不伤主干；三值像学会“哪些路打通、哪些路断开”，还带来正则化，抑制过拟合。数据也在佐证：3B规模的b1.58与FP16相当，推理提速约2.7倍、功耗降七成；常见任务损失多在1–3%。脆弱点在超长链推理与精细算术，此时需保留激活/KV等高精度或用混合策略。聪明不靠比特堆砌，而是把比特用在刀刃上。

新知 - 大圆镜｜内存涨5倍倒逼出的技术：手机能跑60B大模型

对抗知识焦虑，从看懂这条开始

App 下载

把大模型“压缩”成手机装得下的大小

你可以把大模型想象成一本厚厚的百科全书，全精度模型就像是原版精装书，每一个字都印得清清楚楚，占满了整个书架。而极低比特量化技术，就是把这本书做成了极致压缩的口袋本——不是删减内容，而是用更高效的排版和字体，在几乎不丢信息的前提下，把体积缩小到原来的1/6。

这次推出的1.58-bit三值量化模型，就是把模型里的每一个参数，从原来需要16个二进制位表示的浮点数，压缩成只需要{-1,0,1}三个值的三进制数，相当于每个参数只用到了1.58个二进制位。打个更通俗的比方：原来存一个参数需要16个格子，现在只需要2个格子就够了，剩下的空间还能再装5个同样的参数。

但压缩可不是简单的“打包”。为了不让模型因为压缩变“傻”，研究者们用了两套关键技术：量化感知训练（QAT）和大模型蒸馏。前者是在训练模型的时候就模拟压缩后的状态，让模型提前适应“压缩环境”；后者则是让小模型“抄作业”——把全精度大模型的知识，一点点“教”给压缩后的小模型。最终，新模型的能力保留率能稳定在90%到97.2%之间，相当于把百科全书压缩成口袋本后，你依然能查到9成以上的关键信息。

从“能不能跑”到“怎么高效跑”的转向

其实早在2024年下半年，行业里就达成了一个共识：未来手机上一定会跑大模型。但那时候大家的关注点还停留在“能不能跑”——只要能把模型塞进手机，哪怕只能做简单的问答，都算是突破。

但内存价格的暴涨，把行业的关注点直接拉到了“怎么高效跑”上。2026年以来内存价格涨了5倍，手机厂商不得不控制成本，这意味着留给模型的存储空间变得更紧张了。就像你本来想在手机里装一部高清电影，结果只能装一部压缩后的标清版，还得保证画质不能太差。

这次的1.58-bit模型，就是在这种压力下的产物。它和同尺寸的全精度模型相比，推理时能释放约6倍的显存空间。换句话说，原来只能装10亿参数模型的手机，现在能装下60亿参数的大模型。而且它的训练开销只有5%，相当于你花了几乎同样的时间，却做出了6倍小的模型。

更重要的是，这是国内首次在国产算力平台上实现的端到端极低比特量化训练。研发团队只用了三周时间，就完成了对华为昇腾平台的适配，这意味着我们不用再依赖国外的算力平台，就能做出高效的压缩模型。

不是终点，而是新的起点

当然，极低比特量化技术也不是完美的。模型参数越小、位宽越低，能存储的知识就越少，而且能力下降不是线性的，而是可能出现“断档式”下滑。比如0.5B的小模型，能力保留率只有90.1%，而8B的大模型能保留95.7%的能力。这就像你把一本1000页的百科全书压缩成100页，可能会漏掉一些不太常用的知识。

研究者们也在想办法解决这个问题：比如用更精细的课程学习体系，让模型先学基础再学复杂知识；或者针对性地补全基础能力，就像给压缩后的口袋本，再配上一本关键知识点的小册子。

而且现在的技术还只是停留在1.58-bit，未来还有可能向更低的比特位发展，比如1-bit甚至更低。但这也意味着更大的挑战：如何在极致压缩的情况下，依然保持模型的能力。就像你要把一本百科全书压缩成一张明信片，还得保证别人能看懂上面的内容。

当内存价格的暴涨给行业带来压力时，反而催生了更高效的技术。这似乎是科技发展的一个常态：当一条路走不通的时候，往往会逼出一条新的路。

极低比特量化技术的意义，不仅仅是让手机能跑更大的模型，更是让AI从云端走向了端侧，真正走进了我们的日常生活。未来，我们可能不需要依赖网络，就能在手机上享受到大模型的智能服务；我们的智能家居、智能手表，甚至是智能汽车，都能运行自己的大模型，变得更加聪明。

压缩的是模型，释放的是智能的边界。 当AI不再被局限在服务器的机房里，而是能装进口袋里的时候，真正的智能时代，才刚刚开始。

把大模型“压缩”成手机装得下的大小

从“能不能跑”到“怎么高效跑”的转向

不是终点，而是新的起点

评论