新知 - 大圆镜｜浏览器跑通大模型推理，靠的是这招内存魔术

Q: AI压缩信息，是在模仿大脑吗？

不是真正“模仿”，更像在“押韵”。像 TurboQuant 这类压缩用随机正交旋转、极坐标/随机投影，并专门保内积来省比特；大脑的高效编码也常先去冗余再稀疏：视网膜—V1做白化与去相关，嗅觉回路用随机投影后稀疏化实现相似检索，海马齿状回做模式分离把记忆压得更稀。共识是：丢弃无关细节，尽量保留相似关系与可用信息。 但它并不等于类脑。工程方法追求可证明的内积分布最优、固定码本、设备友好且与任务解耦；大脑则是在线自适应、任务与奖励驱动、以能量为硬约束的脉冲通信系统，信号精度低（尖峰与突触分辨率常仅数比特），并通过可塑性持续改写“码本”。结论：AI 压缩借的是同一套信息论直觉，而非复制神经机制。

Q: AI运行变便宜，会更耗能吗？

会。更便宜往往带来“反弹效应”：单位推理能耗在降，但调用量涨得更快，E=e×Q的乘积就上去了。过去两年多家科技公司披露的数据中心用电与碳排仍在攀升，能源机构也警告数据中心用电数年内可能翻倍，AI是主要推手之一。算笔账：若每 token 能耗降到1/4而请求量涨5倍，总电仍多25%；降到1/6但请求涨10倍，总电会增约67%。 要想“更便宜却不更耗能”，核心是把便宜转化为更少的有效计算：用价格与速率闸门抑制低价值请求，把推理迁到本地NPU或高效且使用清洁电的数据中心，并用检索缓存、推测解码、稀疏化等减少必要tokens。只有当需求增幅小于效率增幅，或与零碳电力叠加时，总能耗才可能持平甚至下降。

Q: 极致压缩AI，会产生新偏见吗？

会。极致压缩把误差从“均值正确”搬到了“个体决策”上：即便内积在期望上无偏，排序、阈值和长链推理都靠具体一次的误差。稀有特征、少数语言/方言、长尾实体通常投影在低能量、稀疏方向，3bit 量化更粗，最容易被吞没，表现为召回下降与阈上/阈下样本的系统性偏移——这就是“新偏见”的来源。 已有实证给出警讯：4bit 相比 8bit，行为改变提升4–6倍；最高21%的样本在量化后发生“偏见→无偏/反之”的翻转；按群体分解，最差可恶化18.6%，也可能改善14.1%。把精度再压到3bit，甚至叠加1-bit 符号残差，边界更脆，最先受伤的是低频特征和安全/合规阈值判断。 可控办法不是简单“回到高精度”，而是工程化缓解：高召回低精度检索+高精度重排；按不确定度/梯度动态分配比特；对安全与公平敏感模块保留更高精度；做分群校准和ECE监控；对固定种子引入轮换或抖动以“时间平均”误差。若做不到这些，极致压缩很可能带来肉眼可见的新偏见。

对抗知识焦虑，从看懂这条开始

App 下载

当你在浏览器里输入一句长文本提问，AI瞬间给出精准回答时，可能没意识到——这背后的内存消耗，曾是卡住所有开发者的死结。大模型推理时，用来存储中间计算结果的KV缓存会随上下文长度线性膨胀：70B参数模型处理10万token，光缓存就要占25GB显存，普通GPU根本扛不住。但现在，Google Research的TurboQuant算法把这个数字砍到了原来的1/6，还能让浏览器直接跑通百万token级的长上下文推理。这不是靠堆硬件，而是用数学魔术重新定义了AI推理的内存逻辑。

把向量拧成麻花的量化魔术

你可以把高维向量想象成一团拧乱的耳机线——每个线圈的位置都不规则，要打包得既紧凑又能还原，几乎不可能。TurboQuant的第一步，就是给这团线来个「随机正交旋转」：相当于把耳机线放进一个高速旋转的盒子，再拿出来时，每个线圈的位置都变成了可预测的均匀分布。

但真实的机制比这更精确：输入的高维向量先乘以随机正交矩阵，让每个坐标都服从已知的Beta分布（高维时近似正态分布），消除了原始数据里的异常值和偏态。接着用PolarQuant极坐标量化，把旋转后的向量两两配对转成半径和角度，再用预先计算好的最优Lloyd-Max码本给角度分桶——这就像给整理好的耳机线按固定尺寸打包，不需要额外的捆扎带（量化参数），彻底省掉了元数据开销。

最后是QJL残差校正：用1bit的符号位修正量化误差，保证内积计算无偏。简单说就是，万一打包时压坏了几根线，用一个小标记记住位置，还原时就能精准修复。整个过程不需要训练数据，不需要模型微调，拿到向量就能直接压缩——这是它和传统量化技术最核心的区别。

让浏览器变AI服务器的底层密码

光有算法还不够，要在浏览器里跑通这种级别的计算，得靠WASM和Relaxed SIMD这对黄金搭档。

WASM（WebAssembly）相当于给浏览器装了个「通用计算器」——它能把C、Zig这类底层语言写的代码编译成浏览器能直接执行的二进制文件，速度接近本地原生程序。而Relaxed SIMD（单指令多数据）则是这个计算器的「多核按钮」：一条指令就能同时处理4个32位浮点数，比如用f32x4.relaxed_madd融合乘加指令，一次完成乘法和加法运算，把计算效率拉满。

开发者把TurboQuant的Zig实现编译成带Relaxed SIMD指令的WASM二进制，再用TypeScript封装成简单的API：初始化、编码、解码、点积，四步就能完成从向量压缩到推理的全流程。在Chrome 114+、Safari 18+这些现代浏览器里，它能实现和原生Zig版本完全一致的字节级输出，还能在不解码的情况下直接计算向量点积——这意味着搜索时不需要把压缩包解开，直接用压缩数据算相似度，速度又快了一倍。

当然也有局限：它只解决KV缓存的内存瓶颈，70B以上的模型权重还是得靠权重量化技术；而且浏览器端的计算资源毕竟有限，极端复杂的推理任务还是得靠云端。但对大多数日常场景来说，它已经足够把AI推理从数据中心拉到用户的浏览器里。

不是减少内存，而是重构AI的使用逻辑

TurboQuant发布当天，三星、SK海力士这些内存厂商的股价应声下跌——市场误以为这会减少AI对内存的需求，但事实刚好相反。

它真正改变的，是AI推理的「经济模型」。以前企业要跑长上下文推理，要么租昂贵的云端H100 GPU，要么买几十万的本地显卡；现在用TurboQuant，一台Mac Mini M4 Pro就能支持百万token的文档分析，成本直接砍到原来的1/10。这会让更多企业敢用AI，更多开发者敢做长上下文应用——比如法律文档审阅、百万字小说生成、多轮对话机器人，这些以前只能停留在实验室的场景，现在能真正落地。

更重要的是，它把数据控制权还给了用户。以前用AI得把敏感数据传到云端，现在在浏览器里就能完成推理，数据根本不会离开设备。这对医疗、金融、法律这些对隐私要求极高的行业来说，是跨时代的变化——AI的能力不再和数据隐私对立。

当我们谈论AI的未来时，总习惯盯着更大的模型、更多的参数，却常常忽略了「效率」才是真正的普惠密码。TurboQuant不是让AI变得更强大，而是让AI的强大变得更易得——它不需要你懂复杂的硬件知识，不需要你花几百万买设备，只需要一个现代浏览器，就能把百万token的长上下文推理握在手里。

效率不是为了节省，而是为了让更多人能用。 从云端到浏览器，从数据中心到个人设备，AI正在从少数企业的特权，变成每个人都能触碰的工具。而这一切的起点，不过是一群数学家把向量拧成了更易打包的形状。

脉络

1977年

J. Ziv和A. Lempel提出LZ77算法，为后续矢量量化和数据压缩理论奠定基础，对信息编码和压缩方法产生深远影响。

1980年

Y. Linde、A. Buzo和R.M. Gray提出LBG（Linde–Buzo–Gray）算法，成为矢量量化设计的核心方法，极大推动了VQ在信号压缩中的应用。

1980年

A. Buzo等首次将矢量量化应用于语音编码，展示了其在低比特率语音信号压缩的优越性，促进了VQ在语音通信领域的广泛应用。

1984年

R.M. Gray系统梳理矢量量化理论，提出VQ的数学基础和性能分析方法，为后续算法改进和应用推广提供理论支持。

1985年

J. Makhoul发表矢量量化在语音编码领域的综述，分析VQ在实际通信系统中面临的挑战及优势，对业界推广起到重要作用。

1988年

N.M. Nasrabadi和R.A. King对矢量量化在数字图像编码中的技术进行综述，推动VQ在图像压缩和存储领域的应用研究。

1989年

Philip A. Chou提出熵约束矢量量化（ECVQ），通过拉格朗日优化实现码字本与比特率的协同优化，提升了压缩效率。

1990年

Stanley C. Ahalt等提出基于竞争学习的矢量量化算法，为VQ与神经网络结合提供了新思路，拓展了自适应码本设计。

1990年

Teuvo Kohonen提出改进型学习矢量量化（LVQ）算法，提升了VQ在有监督学习任务中的性能，广泛应用于模式识别。

1992年

A. Gersho与R.M. Gray合著《Vector Quantization and Signal Compression》，系统总结VQ理论、算法与应用，成为该领域经典教材。

1993年

Thomas Martinetz等提出“神经气体”网络，将软最大自适应规则引入VQ，提升了VQ在时间序列预测等任务中的表现。

1995年

Atsushi Sato等提出广义学习矢量量化（GLVQ）方法，改进了LVQ的收敛性和分类精度，在模式识别领域获广泛关注。

2000年

Li‐Yi Wei和Marc Levoy提出基于树结构VQ的快速纹理合成算法，实现了高效的计算机图形纹理生成，推动VQ在图像合成领域应用。

2001年

Teuvo Kohonen等对学习矢量量化（LVQ）模型进行系统梳理和完善，推动其在机器学习和数据挖掘领域的普及。

2011年

Adam Coates等深入分析了矢量量化与稀疏编码在视觉特征生成中的作用，提出编码过程对性能影响更大，推动VQ在深度学习特征提取中的应用。

2014年

Yunchao Gong等提出用矢量量化压缩深度卷积神经网络参数，显著降低模型存储成本，为神经网络在移动端部署提供新路径。

2021年

Jiahui Yu等提出改进型VQGAN，推动矢量量化在图像生成建模领域的进步；Disong Wang等提出VQMIVC，实现基于VQ的无监督语音表征解耦，提升一-shot语音转换性能。

2022年

Shuyang Gu等提出VQ-Diffusion，将矢量量化与扩散模型结合，实现高质量文本到图像生成，拓展VQ在大模型生成领域的应用。

2022年

Zhiliang Peng等提出BEiT v2，利用矢量量化视觉分词器提升掩码图像建模性能，推动VQ在自监督视觉表征学习中的应用。

2023年

Qifan Fu等提出基于矢量量化的语义通信系统，有效提升端到端通信的表达能力和效率，推动VQ在智能通信领域的落地。

2026年

Suvendu Sekhar Mohanty等提出统一框架，集成渐进量化、自适应索引，实现大规模AI向量嵌入的高效存储与检索，支撑RAG等AI应用。

2026年

GAURAV SAINI等提出SMAQ方法，实现面向工作负载的KV缓存矢量量化压缩，有效解决存储预算与量化损失的权衡，提升大模型推理效率。

2026年

Andrey Gruzdev等提出基于旋转减法抖动格的无偏在线矢量量化（R-SDLQ），适用于LLM和大规模向量数据库，提升在线量化精度和效率。

2026年

Huili Wang等提出TurboEmbed框架，实现高性能向量相似性搜索的零损失角量化，显著加速大规模检索与嵌入存储。

2026年

Daniel Moya Vaca等提出基于K-means++初始化的产品量化（PQ）优化算法，提升高维向量搜索的检索效率和精度，适用于嵌入式系统。

把向量拧成麻花的量化魔术

让浏览器变AI服务器的底层密码

不是减少内存，而是重构AI的使用逻辑

评论