离线的贾维斯，会比云端AI更笨吗？

不一定。要看你把“聪明”定义成什么：模型上限、任务贴合度，以及延迟与稳定性。云端通常更强——更大的前沿模型、更新鲜的世界知识、多模态与更长上下文、持续对齐与更新——在开放域检索、复杂推理、跨服务协同上往往更胜一筹。但离线在很多时候对你更“懂你”：它能直接读写你的本地文件、数据库与内网系统，结合RAG和长期个体记忆给出贴身答案，低延迟、可离网、隐私全量可见，Agent长时间连续运行也更稳。以Tiiny为例，100B级本地推理已到实用的20–45 tok/s，长文与专业流程可胜任。最实用的路径是混合编排：默认端侧处理，遇到超纲任务再“云援手”，把云当可按需召唤的外挂大脑。

有了私人AI，我们还上网搜索吗？

会，但“谁去搜”变了。私人AI会先理解你的意图，直接给出结构化答案；当它不确定或需要时效信息时，再在后台调搜索/RAG去抓资料并附上出处。现实数据说明是“替代式弱化”：到2025年，聊天式AI月访问约552亿次，而传统搜索仍有1.86万亿次流量（约为前者的34倍）；Gartner预估到2026年传统搜索流量下滑约26%。用户愿为省时买单（如Perplexity年经常性收入约5000万美元），但还没到“无搜索时代”。不被完全取代的关键在三点：一是可信度与溯源，涉及价格、合规、论文原文等高风险决策，用户仍会点开网页核验；二是时效与封闭库，很多最新数据与垂直资料需实时抓取并受平台权限约束；三是本地隐私与联网矛盾，像Tiiny这类离线AI更私密，却天然不具备实时信息，必须在需要时切到“上网模式”。结论：我们还会上网搜索，但频率与入口在下沉——搜索更像被私人AI调度的“数据管道”，只有当你要亲见证据或做高风险决策时，才亲自出面。

AI“移动硬盘”的下一站是什么？

下一站不是更小的“盒子”，而是“家庭/办公室AI中枢”与“可插拔eNPU标准件”。像eGPU一样通过Thunderbolt/USB4/PCIe接入，直接嵌进路由器、NAS、会议终端，形成统一的本地AI总线；配合CXL/高速PCIe把NPU与主机做内存池化到数百GB级，叠加本地模型商店、向量化长期记忆与私有LoRA，一次部署，多设备共用，多Agent在局域网内协同。商业形态则从“卖硬件”走向“模型/优化订阅+合规模组”，面向金融医疗提供离线合规包、全链路审计与TEE隔离，支持气隙场景。技术路线上，MoE会与MoR/SSM并进，2–4bit量化+稀疏指令NPU、KV分页与猜测解码，把70–100B对话拉到15–30W功耗的实时可用。再往后，能力被AIPC、手机与车端原生集成，盒子退化为开发者与垂直行业的“边缘卡”。

新知 - 大圆镜｜不用AI PC，外接小盒子就能跑百亿级大模型

大圆镜

内容由AI生成，思考得你完成

App Store 下载 Android 下载

把大模型拆成「冷热两部分」干活

你可以把大模型想象成一个大型办公室：有些员工（参数）每天都要处理核心工作，比如理解日常对话、分析通用文本；另一些员工只在碰到专业问题时才会被喊来，比如解读医学报告、生成复杂代码。前者就是「热激活参数」，后者是「冷激活参数」——它们的调用频率相差几个数量级。

过去要让大模型本地跑，只能堆高性能GPU，就像给整个办公室都配顶配电脑，不仅贵，还费电。而端侧异构架构的思路是：让合适的人干合适的活。把热激活参数放在专门为大模型优化的dNPU（专用神经网络处理单元）里，这部分芯片去掉了图形渲染等无关功能，只专注高速处理AI任务；冷激活参数则交给功耗更低的通用SoC（系统级芯片），平时处于低功耗待机，只有需要时才启动。

这套分工的效果很直观：在实测中，百亿参数模型的预填充速度能达到300 tokens/秒，解码输出速度也能稳定在20 tokens/秒——已经快过普通人的阅读速度。

软硬件拧成一股绳才是关键

光有硬件分工还不够，得有个聪明的「调度员」把任务分配清楚。这里的核心是推理引擎——它能实时识别哪些参数是当前任务的「热区」，提前把它们加载到高速内存里；对于冷参数，则只在需要时才从低速存储中调取，避免占用宝贵的高性能算力。

打个比方，这就像你在家做饭：常用的盐、油放在灶台边的调料架（dNPU内存），随手就能拿到；偶尔用的香料、干货则放在橱柜深处（SoC存储），需要时再去取。而推理引擎就是那个提前帮你预判菜单、把要用的调料摆好的助手。

更关键的是，这套系统还用到了MoE（混合专家）模型——它看似有百亿参数，但每个任务只会激活其中一小部分，就像办公室里只让相关部门加班，其他人正常休息。这种「稀疏激活」的设计，让小盒子能用远低于AI PC的功耗，跑出接近专业显卡的性能。当然，也有人质疑这种参数计算方式的严谨性，但不可否认，它确实在算力和功耗之间找到了一个巧妙的平衡点。

现在的补丁，未来的新起点？

这款小盒子的爆火，其实戳中了当下AI硬件市场的一个空白：专业用户想要本地大模型的隐私和速度，却不想为了这一个需求换掉整个电脑。它更像是一个过渡方案——就像当年在SSD普及前，大家用移动硬盘扩容一样。

但它的意义不止于此。端侧异构算力架构证明，大模型不用非得靠云端或顶配PC才能跑起来，通过软硬件的协同优化，普通设备也能承载智能需求。当然，它也面临着不少挑战：比如不同芯片架构的算力调度标准不统一，散热设计要在静音和性能之间妥协，还有模型适配的复杂程度。

更值得思考的是，当越来越多的智能需求从云端回到本地，我们对AI硬件的定义会不会被改写？未来的个人设备，会不会像现在的手机一样，把通用计算和AI计算彻底分开？

从云端到端侧，AI正在从「共享服务」变成「私人助理」。这款小盒子或许只是一个临时的解决方案，但它背后的异构算力思路，正在打开一扇新的门：让智能真正属于每个设备，每个用户。

算力的未来，从来不是堆出来的，而是「省」出来的——用对地方的算力，才是真正有用的算力。

把大模型拆成「冷热两部分」干活

软硬件拧成一股绳才是关键

现在的补丁，未来的新起点？

评论