对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
算力壁垒|能源消耗|碳排放|模型瘦身|量子科学|大语言模型|数理基础|人工智能
大型语言模型(LLM)的智慧,与其庞大的身躯紧密相连,但这既是其力量的源泉,也成了其落地的沉重枷锁。训练一个像GPT-3这样的模型,其碳排放量相当于5辆汽车从生产到报废的全生命周期总和;它在训练期间消耗的水量,足以填满一个标准游泳池。当AI的每一次“思考”都伴随着惊人的能源账单,其前沿能力便被无形的高墙囚禁在少数科技巨头的数据中心里,让无数渴望创新的企业和开发者望而却步。这场关于智能的竞赛,似乎从一开始就注定了赢家属于那些拥有无尽算力的“巨人”。然而,一缕来自量子物理的灵光,正试图打破这一僵局。
2月24日,西班牙一家名为Multiverse Computing的初创公司,在Hugging Face平台免费开放了其最新压缩模型HyperNova 60B 2602的完整访问权限。这款模型基于OpenAI的开源模型gpt-oss-120B,体积却被压缩了整整一半,从61GB降至32GB,但在关键的工具调用和代理工作流能力上,几乎与原版无异。这石破天惊的一步,向世界宣告:**“身量减半,性能不减”**的AI轻量化时代,已然到来。
这场革命的种子,源于2019年创始人恩里克·利萨索与量子物理学家罗曼·奥鲁斯的一次WhatsApp聊天。他们探讨了将量子世界的数学工具应用于解决金融复杂问题的可能性。这个看似天马行空的想法,迅速吸引了营销与计算物理专家的加入,并最终演化为公司的核心技术——CompactifAI。这个最初为金融优化的量子灵感,意外地为解开AI的“重量级”困境提供了钥匙。
传统的模型压缩技术,如剪枝(Pruning)、蒸馏(Distillation)和量化(Quantization),就像是给臃肿的模型做“抽脂手术”。剪枝是砍掉不重要的神经元,蒸馏是让大模型“教”小模型,量化则是降低每个参数的精度。这些方法在一定程度上有效,但当压缩率超过50%时,往往会导致模型性能出现20%到30%的断崖式下跌,如同手术过度导致元气大伤。

CompactifAI则另辟蹊径。它并非粗暴地裁剪神经元,而是借鉴了量子物理中用于描述复杂多体系统的**张量网络(Tensor Networks)**数学思想。这门技术的核心,是洞察并重构模型内部参数之间的“关联空间”。
结果是惊人的。根据其2024年发表的论文,CompactifAI最高可将模型体积压缩95%,而精度损失严格控制在**2%至3%**以内。这不仅意味着训练时间缩短50%,推理时间缩短25%,更从根本上改变了AI的成本结构。

Multiverse Computing的雄心不止于发布一个模型。他们已经推出了一系列被戏称为“模型动物园”的产品,包括参数量仅9400万、大小如“苍蝇脑”(fly’s brain)的SuperFly模型,以及参数量32亿、性能媲美Llama 3.1 8B的“鸡脑”(chicken’s brain)模型。后者甚至可以在一台普通的MacBook上离线运行,无需联网。
这一系列突破带来了深远的现实意义:
Multiverse Computing并非孤军奋战。全球的科技巨头和初创公司都已意识到“小而美”的巨大潜力。Meta发布了微型Llama模型,谷歌推出了Gemma系列,微软的Phi系列模型以极小的体积在特定任务上超越了数十倍于其的大模型。字节跳动的UltraMem架构、英特尔的SignRoundV2量化技术,也都在从不同路径探索模型效能的极限。
这场围绕模型效率的竞赛,正将AI的发展从单纯追求“更大、更强”的参数竞赛,引向“更小、更巧、更高效”的价值落地新阶段。正如Multiverse Computing的CEO所言,压缩是一个持续迭代的过程,每一代新模型都在推动高效AI的边界。
从一个偶然的WhatsApp聊天,到挑战全球AI巨头的落地困局,量子启发的压缩技术正在上演一场“四两拨千斤”的变革。它不仅是在为AI模型“瘦身”,更是在为整个AI产业的未来“减负”,预示着一个更加开放、普惠和可持续的智能新格局正在到来。