大脑是终极存算一体，芯片设计能从中学到什么？

想象一座千万级人口的城市，却没有上下班高峰：办事不再奔波到市中心，而是在家门口就地解决。大脑就是这样的“零搬运城市”——信息在突触处存、在突触处算，25瓦左右的功耗，却能驱动语言、视觉、动作与想象。这正是终极的存算一体，也是一面照向未来芯片设计的镜子。大脑首先教我们的，是把“数据搬运”当成头号敌人。传统冯·诺依曼架构把数据在存储与计算之间来回倒腾，60%到90%的能耗白白耗在路上；而神经元-突触让“权重即存储、计算即释放”，把乘加这种核心操作就地完成。芯片应从根上减路：把运算放进记忆阵列里，靠近甚至进入单元格。业界已出现两条路径：把计算贴近内存的近存计算，以及直接在阵列内做乘加的存内计算。三星和海力士推动的LPDDR6-PIM是前者的工业化引擎，清华忆阻器存算一体与知存科技的Flash阵列乘加，则是后者的“邻里对话式”计算，已在耳机这类毫瓦级场景把AI算力提升到传统架构的50至100倍。大脑的第二课，是事件驱动与稀疏通信。生物神经网络“局部密集、全局稀疏”，只有被触发的神经元才放电，其他保持静默。这启发芯片走向脉冲与异步：只为“激活”的少数通路供电，网络在空闲处真正休眠。NSLLM等工作把大模型的矩阵乘法转化为神经动力学流程，在FPGA上关闭大规模矩阵乘操作，将动态功耗压到十几瓦、吞吐反升，说明“以事件为单位”的算术可重构主流AI工作负载。要承接这种范式，芯片的片上网络需要拥抱异步通信、稀疏路由和自适应带宽，而非为峰值密集流量粗暴堆宽。第三课，是拥抱“不精确却可靠”。神经元采用脉冲与阈值，精度并不“数值洁癖”，却靠冗余、竞争与回路稳定出鲁棒智能。对应到硬件，就是敢用低比特、类比累加和带噪权重，靠算法-电路-材料协同把误差圈住：量化感知训练补偿位宽，阵列级校准驯服忆阻器波动，数字校正环抵消模拟漂移。清华团队已在片上学习上把能耗做到了传统先进工艺的约1/35，显示“带不确定性学习”的硬件是可工程化的。第四课，是可塑性与在地学习。赫布可塑性告诉我们，“一起激活就连得更紧”。终端AI若想真正个性化，必须在设备本地持续更新——既为隐私，也为毫秒级响应。类脑芯片通过可塑突触原语（如STDP）与本地规则，支持随用随学；知存等公司也在把存算一体从毫瓦扩展到瓦级，为“2瓦跑云端级模型”的未来手机与机器人打地基。机器人要在1毫秒闭环里抓取、避障、调姿，云端永远来不及，本地才是必选项。第五课，是层级记忆与三维互连。人脑有短时、工作、长期记忆的分工；芯片也该把SRAM、DRAM与非易失NVM像“记忆栈”那样耦合，热数据超近、长忆久存、跨层无缝。先进封装与三维集成是“仿生血管”：HBM、LPDDR6-PIM把“路缩短”，存内计算把“路消失”，CUBE等定制内存把“带宽定制到算法”。再往前一步，像“天眸芯”那样把感知与计算同片融合，在传感端先做智能压缩，能把带宽和功耗一刀砍下去，这与大脑“视网膜即预处理”的范式如出一辙。第六课，是以“回路”为单位思考功能。大脑靠回路模组组合层层涌现，CircuitNet等提出的电路母题单元，把反馈与侧向抑制等连接模式模块化，形成“类脑计算完备性”的硬件原语。对Transformer等主流模型，硬件也该抽取一组可在阵列中高效映射的原语：就地乘加、归一化与门控、稀疏选择与竞争、近似注意力的局部匹配等，让编译器把算子流自动分解到阵列与近存单元上，抹平模型到硬件的落差。当我们向大脑取经，不是去复制生物学的每个细节，而是抓住它的准则：就地计算、按需激活、容错冗余、持续学习、层级记忆与立体互连。沿着这些准则，端侧AI的“超低功耗但毫不妥协的智能”会先在耳中、腕上、车里与机器人关节里生长，继而长成一个新的生态——开发者不再被带宽、时延和电池捆住手脚，开始编写真正常驻、主动而私密的AI伙伴。从蒸汽机到电，再到信息时代，人类每一次技术跃迁都在问同一个问题：怎样用更少的能量，做更有意义的计算。大脑给出的答案朴素而深刻——把计算放在意义诞生的地方。也许当硅片学会在“记忆处思考”，我们距离更安静、更聪明的机器，也就不远了。

当机器人反应比人快，我们该如何与它安全相处？

当你眨一次眼，大约过去了两百毫秒；而一台新一代机器人，可能已经完成了上百次控制循环、预测下一步轨迹、并调整电机扭矩。速度带来力量，也放大风险。当机器的反应比人更快，我们与它安全相处的秘诀，不是“慢它一步”，而是让它在规则内“快而稳”。更快其实可以更安全。端侧AI把计算从云端搬回机器人本体，将控制闭环缩短到毫秒级甚至更低，这意味着它能更早发现潜在碰撞、在接触前就柔化动作。关键在于把“快”装进合规的轨道：协作机器人国际安全规范已经给出了成熟做法——当人进入共享空间，系统以监控停止保障静默安全；需要人手牵引时开放“手动引导”；人机同场作业时用速度-距离监控实时计算最小安全距离，靠近则降速、越界即停；一旦必须接触，启用功率/力限制，让碰撞变成“可承受的轻触”。这些方法背后是成体系的阈值与流程，而不是临场即兴。让速度听得见刹车，必须有一套“安全神经系统”。可靠的感知要冗余融合：视觉、深度、力矩/电流都说话，同一事件多路验证。即使没有额外传感器，也能通过关节电机电流的异常分量识别碰撞，毫秒级触发保护。紧急停止按钮要“傻瓜可靠”——大红、可锁定、就近可达，复位必须经人工确认。控制架构上坚持失效安全原则：任何单点异常都导向低能量、安全姿态。真正要跑得快的，是安全逻辑本身：最高优先级、硬实时的安全控制回路，永远比任务规划更“有话语权”。算力越贴近传感器，安全响应越实时。存算一体等近/存内计算技术把“搬数据”的长途跋涉省掉，让毫瓦级功耗也能跑复杂模型，为1毫秒级控制提供了能效地基。但再强的本体AI，也需要“安全副大脑”——一颗通过功能安全认证、运行确定性实时系统的控制器，独立守护急停、限力、监视与复位。快的那颗负责聪明，稳的这颗负责兜底。安全不只在电机与算法里，也在价值与治理中。让机器快速、可解释地说明它为何减速或为何停机，保留不可篡改的操作日志，明确责任与边界，能让人信任。一切与人身、隐私相关的数据优先端侧处理、最小化留存，是与“快机器人”和平共处的社会契约。规则如何写入？一部分是自上而下的明确禁令与阈值，一部分是自下而上的示例学习与持续校准，始终保留“人可随时接管”的通道。人与机器的共同体，离不开训练与场域治理。风险评估要在“空间-时间”坐标里进行：同地同时时，限制速度与力量；异地异时，则开放效率。定期演练急停与异常工况，让“万一”成为肌肉记忆。用灯带、声光提示、可预测的轨迹表达机器意图，让人能“看懂”它的下一步。仓储AGV、产线协作臂的经验都在证明：当重复、重载、危险交给机器人，人能把注意力放到更高价值的判断与创造上，安全与效率并不矛盾。也许更重要的，是心态上的新默契。我们不是在和速度赛跑，而是在与可控性结盟。让机器反应更快，不是为了替代人，而是为了在人可能来不及的那一瞬，替人挡下一次风险。当规则、技术、伦理与训练形成闭环，快不再可怕，它会像好刹车之于跑车，让力量安全地抵达价值。最终的问题不只是“它会多快”，而是“我们愿意让它在多大的边界里快”。速度是工具，可信是目标。和更快的机器人安全相处，其实是在回答一个更古老的命题：人如何用规则把力量变成文明。

当手机配上存算一体，AI助理会解锁什么新超能力？

想象一下，你口袋里的手机忽然变成了一台安静的小型数据中心：不发烫、不抢前台资源，却能24小时清醒地理解世界、替你做事、保护你的隐私。这不是魔法，而是当“存算一体”把计算搬进了内存——把搬运数据这件最耗电的活儿彻底干掉后，AI 助理迎来的能力飞跃。传统芯片把数据在存储与计算单元之间来回拉扯，白白消耗了60%-90%的能量和时间。存算一体改变了游戏规则：在存储阵列里直接完成乘加等神经网络核心运算，等于让“邻居开门互相说句话”就把事办了。这带来两件硬核事实：同等面积的并行度提升到“以阵列为单位”的量级（从GPU的一行一行到“整块阵列一起算”），以及能效级跳升（实测在耳机几毫瓦功耗下跑Transformer，算力提升可达50-100倍）。当三星、海力士推动LPDDR6-PIM标准化，带宽、能效和安全同步强化，手机端的“零搬运”时代开始有了产业化底座。 AI 助理首先获得的是“长时驻留、毫不打扰”的体质。过去你一唤醒它，前台顿时卡顿、温度上扬；存算一体让大量推理在内存里“就地完成”，日常待机功耗几乎不抬头，于是它可以全天候记录上下文、整理日程、观察使用习惯，真正具备“记性”和“连续性”。当你早上刚驶向车库，它已给会议同事发出“我马上到”的短信；当晚回家，它已把白天的散碎待办合成三条可执行计划。其次是“即看、即懂、即做”的系统级操作力。新一代助手不再是“会聊天的搜索框”，而是理解屏幕、打通应用、自动执行的超级代理：读懂聊天记录中的意图，切换日历、航旅、支付，生成十几步的自动化流程稳稳跑完。随着OS层面开放更精细的系统权限与交互协议，配合端侧算力的常驻可用，类似“豆包手机助手”与可稳定完成长链路操作的Agent模型（如具备Phone Use能力的方案）将成为日常。你给一句目标，它给你一个已完成的世界。再来是“实时生成与重构”的感知魔法。通话时，它不是粗暴消噪，而是用个性化声纹重建你的清晰人声；视频拍摄里，它边拍边做4K/8K级画质增强与抖动修复；面对外语，它把跨语种同传变成低延迟的自然对话。这类生成式任务最怕的就是带宽与功耗，恰恰是存算一体最擅长治的“病”。隐私与韧性也被同时点满。更多推理在本地完成，聊天、支付、地理轨迹等敏感数据不必出端；BitNet 1.58bit 这类低比特推理与LPDDR6-PIM的高并行协同，进一步降低内存占用与能耗，离线可用的功能显著扩展。电梯里、山区里、弱网下，你的AI不再“失聪”，而是像可靠的同伴一样继续办事。混合式智能则让体验“贵在合适”。高通等提出的端云协同路径，会把最私密、最及时、最个性化的部分留在端侧，把超大上下文或超重生成交给云。存算一体提供的，是让端侧那一半“稳、快、省”的算力地基，让分布式AI真的能“各尽其长”。更令人期待的是“即学即用”的个性化能力。端侧的高能效算力让小规模增量训练、LoRA微调、联邦学习成为日常：它能在几天内学会你的口音与措辞，明白什么是“你的一套流程”，并在不上传原始数据的前提下持续进化。你的手机，开始像你。别忘了多设备协同。当联想等厂商推进“超级智能体”跨终端生态，手机上的端侧大脑可以调度耳机、手表、PC与车机，形成个人算力编队。存算一体把“常驻、即时、隐私”的心智放在你最常用、最贴身的设备上，其它设备成为它的“手”和“眼”。当然，超级能力也需要规则与生态保驾。系统级Agent要透明披露、最小必要授权，建立跨App的安全联动协议与“智能体信用”，开发者也要为敏感操作设置用户最终拍板。这不是技术的束缚，而是规模化落地的通行证。当手机配上存算一体，我们真正从“点点点一个个App”，走向“说出意图、自动完成”的时代。计算更靠近存储，智能更靠近生活。也许不久的将来，你每天获得的不是一台更强的手机，而是一小时被悄悄归还的时间。那时，你会把这多出来的一小时，用来完成哪件一直想做、却被琐事耽搁的事呢？

芯片算力不再只靠纳米，摩尔定律真要终结了吗？

当你把两个人从同一层房间叫到楼下办公室，只为问一句“吃饭了吗”，你就理解了今天芯片的焦虑：不是算不出答案，而是“搬人”太费劲。纳米数继续往下挤，性能却不再翻倍；算力的新速度，正在从“更小的晶体管”转向“更近的数据”和“更短的路径”。那么，摩尔定律真要终结了吗？严格说，传统意义上的摩尔定律早就放缓了。它从不是自然法则，而是一条工程节奏线：更密更小，性能、能效、成本随之优化。如今物理极限与经济性双重掣肘，让“只靠纳米”难以维持过去的增速。行业共识也在变化——未来的算力增长，不再主要来自单颗芯片尺寸缩小，而是来自系统、架构与封装的整体协同。真正的瓶颈在“搬数据”。在冯·诺依曼架构里，60%—90%的能耗浪费在存储与计算单元之间的来回搬运，构成“存储墙”“功耗墙”。AI模型越大，数据队伍越长，路越堵。于是新的范式出现了：把计算搬到数据旁边，或者干脆让数据在“家门口”完成乘加。近存计算把处理单元挪到内存边上，缩短路径；存内计算则把乘加直接嵌入存储阵列，几乎让“搬运”这件事消失。形象地说，GPU像一栋楼有二十个出口一起放人；存内计算则是“人人在自家门口同时开工”，并行度提升一个维度。这不是纸上谈兵。随着LPDDR6-PIM加速标准化，存算一体从论文走向量产，耳机等毫瓦级设备已能在本地跑更复杂的AI，能效提升可达数十到百倍。在更大场景里，3D堆叠、混合键合、Chiplet与玻璃基板把计算与存储垂直耦合，有效带宽提升一个量级，AI负载性能也随之跃升。这意味着算力的“第二增长曲线”正以存储单元为中心展开：不再只是多放晶体管，而是让比特在更短距离内被更聪明地使用。架构也在改写角色分工。GPU曾是“加速卡”，如今在数据中心成为“主角”；同样的故事正在端侧酝酿。机器人要在1毫秒内闭环，与物理世界实时互动，这种延迟根本等不起云端往返，必须端侧决策。这既是对能效的极限拷问，也是对架构的正名：谁能把大模型“塞进”几瓦以内，谁就定义下一代主芯片。别忽视软件与算法。编译墙、内存墙、能耗墙彼此勾连，只有软硬件协同才能一起跨过去。模型的稀疏化、量化、图优化，与硬件的存内乘加、片上高带宽与异构调度相互咬合；在超低功耗物联网中，亚阈值电压电路让“每一分漏电”都能重利用，摩尔定律在另一个维度续命。算力的价值观也在更新：不是最强峰值，而是每焦耳完成最多有效推理。产业信号清晰而密集。HBM需求推高内存价格，反证“数据靠近计算”的价值；面向端侧AI的PIM内存、客制化高带宽存储与多Die系统，让“位移少、带宽大、能效高”的硬件底座逐步成型。市场预期同样乐观：存算一体相关规模在未来几年将快速扩张，端侧推理占比持续抬升，机器人、手机、可穿戴与车载都在等待一块“更像AI的芯片”。所以，摩尔定律并未“终结”，而是在换轨。它从“尺寸缩放的定律”，变成“系统协同的学问”；从“More Moore”，走向“More than Moore”。纳米依然重要，但不再居C位。新的C位，是把正确的数据在正确的时间，以最低能耗送到正确的地方，并在那一刻就地完成计算。当我们不再执着于“更小”，而是痴迷于“更近、更并行、更智能”，你会发现：每一次少搬一次数据，都是新时代的“摩尔步进”。也许人类真正追逐的，不是晶体管数字的更迭，而是对复杂世界更高效的理解与响应。算力的未来，终将从尺度的竞赛，走向距离与时间的艺术。

除了“复刻”人声，小耳机里还能塞下怎样的人工智能？

想象一下，你戴上的不再是一副耳机，而是一位贴身的“微型AI副驾驶”：它在嘈杂地铁里听懂你、在会议里替你记录并总结要点、在夜跑时悄悄提醒后方来车、在心率与压力飙升时给出一次深呼吸的节奏引导——这一切，都在几毫瓦功耗的“芝麻-sized”芯片里完成。存算一体把计算从“搬来搬去”变成“就地完成”，把原本要在远端或手机NPU上做的事，放进了耳机的存储阵列中并行完成，能效提升可达50–100倍，让小耳机拥有了做“大事”的底气。除了“复刻人声”，小耳机里的AI还能做很多更聪明的事。会话层面，它不只是降噪，而是“懂语义”的同传与纪要助手：实时分离说话人、转写对话、自动提炼行动项和时间点，有产品已做到约0.8秒级的双向翻译延迟与高准确率，足以支撑外语会议和差旅沟通。生成式语音再合成可以进行口音中和、带宽修复与丢包补偿，让嘈杂或低码率通话听起来像在同一间安静的屋子里。听力增强正在被AI重塑。传统ANC只是“削噪”，而耳机侧小型Transformer可以进行“语音重建+个性化听力曲线”的双路增强：依据你的听力图实时塑形高频与人声区，弱听人群在餐馆这类复杂混响环境里也能清晰对话；久戴状态下，AI会根据等效声剂量主动下调音量并给出听力风险预警，做到“悦耳”与“护耳”的平衡。健康与情绪，是耳道这个黄金传感位的天然强项。心率、血氧、睡眠与压力等体征被低功耗传感器捕获，AI在端侧完成异常检测与微干预，提供“1分钟呼吸训练”“步频—心率配平”之类即时建议。已有产品基于耳道生理信号推断注意力与疲劳负荷，甚至支持离线“认知快照”，这些能力放在端侧意味着隐私默认被更好地保护。空间理解让耳机成为“声学雷达”。多麦阵列+声事件检测为你识别背后突发喇叭、靠近的电动车铃声、玻璃破碎等高危音，必要时穿透降噪迅速提示。头部IMU与环境声联合建模可以带来“声学变焦”，你在聚会里望向某人，耳机就把那一束人声“拉近”，搭配空间音频与个性化HRTF，让“你看向哪里，哪里就更清楚”。交互也在悄然改变。除了“唤醒词”，耳机通过意图预测与情境理解做到“少打扰的主动服务”：你加速行走且心率上扬，它自动切“环境声+导航播报”；你进入会议室，它静默开启纪要模式；你快到地库且日程显示将迟到，它代你发出礼貌提醒。与手表、眼镜联动后，这位“AI中枢”还能把视觉、语音和生理数据拼成完整的故事线，做更稳妥的决策。对创作者与职场人，耳机侧AI可以是“实时内容工坊”。边录边去噪、自动分轨、声纹分离、术语库纠错、片段摘要推送到待办列表；直播时进行低延迟情绪放大与音色一致化；跨语种场景下做“对口型”的同传配音。由于很多环节都能在端侧完成，版权与隐私风险显著降低，边际成本也被压到更低。所有这一切为何现在变得可行？因为算力范式在变。传统冯·诺依曼架构把时间和电都消耗在“搬数据”上，而存算一体把乘加计算搬进存储阵列本身，端侧在毫瓦级功耗下也能跑起小型Transformer、声学分离、事件检测等“过去只在云端能跑”的模块。对需要亚10毫秒闭环的音频与交互来说，这种近乎“零搬运”的并行计算不仅更省电，更关键的是“更快”。当然，混合AI仍然必要：简单、低时延且对隐私敏感的任务在耳机本地完成；长文本摘要、多语言大词表或需要高精度校对的场景可瞬时切云，云端并行处理多个标记再回传校正结果，既不牺牲体验，也不拉高能耗。等到LPDDR级PIM与更成熟的存内计算继续下沉，端侧的可用模型规模还会再上一个台阶。当耳机从“音频外设”升级为“贴身智能器官”，真正的价值不是把大模型塞进去，而是它能在最恰当的瞬间，少说一句、少打一次扰，却多解决一个问题。技术的终点，往往是温柔地隐身：让我们听得更清、活得更自在，也更安全自如。也许有一天，我们忘了它是AI，只记得生活因此变得更安静、更有效率、更有人情味。

AI计算很快，那复杂的逻辑思考未来要交给谁？

当AI像闪电一样完成运算，我们真正缺的，反而是深海潜泳般的推理。速度不是思考本身，正如高速相机不能替你做判断。那未来的复杂逻辑思考，要交给谁？答案不是“AI或人”，而是一个正在成形的协作系统：人的慢思＋AI的系统化推理＋更贴身的端侧算力。先说AI这边的“慢思”能力。大模型正在从“脱口而出”的快思，转向显式推理的系统2模式：把复杂问题拆解、展开中间步骤、迭代验证，这就是被验证有效的思维链方法。它让模型不再只给结论，而是在可解释、可干预的路径上前进。更进一步，AI智能体会自我规划、调用工具、与其他系统协作，把推理从一段话，变成一个可以执行的计划。复杂逻辑的“体力活”——枚举、分解、仿真、回溯——AI会越来越擅长。但推理不是只有算法，还是架构与物理极限的博弈。传统冯·诺依曼架构把数据在存储和计算之间来回搬运，60%到90%的能耗都耗在“搬家”上，算得再快也跑不出“存储墙”。存算一体正是在这里重塑了底层：让计算在存储阵列里就近发生，把“拉出来再算”的流程删掉。行业里既有近存计算把处理器搬到内存旁，也有存内计算把乘加直接放到阵列内部。随着LPDDR6-PIM走向标准化、HBM配合先进封装普及，这类“少搬数据、多做正事”的范式正在把AI的推理效率真正拉高。场景会倒逼这件事走得更快。耳机里几毫瓦的功耗，如今已经能跑小型Transformer来“重生成”干净人声，这是一个信号：在功耗极限里，复杂模型也可以常驻。机器人更直接——要把延迟压到1毫秒，决策必须在端侧完成，不可能靠云端来回等待。当端侧AI从“调用式”变成“常驻式”，复杂推理就会从数据中心下沉到每个人的手机、每台机器的本体，成为一种随时可用的“低延迟思维引擎”。那人类还做什么？我们从“算题的人”，转为“出题的人”。价值取舍、目标设定、风险边界、跨学科抽象、伦理责任，这些是复杂思考中最难自动化的上游。AI可以把可能性空间铺开，把证据和路径讲清，把不同方案在你设定的偏好和约束下模拟到位；而你来决定“要做哪个世界”。这不是把思考外包，而是把深思熟虑集中在最关键的一步——问题的定义与价值的选择。企业里，趋势也很清晰。可解释的推理链让审计、风控、合规可对齐，决策自动化把流程从“给建议”推进到“可执行”，多模态数据让洞察更完整。真正的“复杂逻辑”，会变成“AI给出可解释可执行的方案集＋人类设定目标与边界”的闭环，速度与审慎兼得。你可能会问：这一切何时普及？当三股力量合拢时就会发生。其一，更强的推理型模型在端侧常驻，哪怕在2瓦量级也能给出云端级能力；其二，存算一体与先进封装让带宽与能耗不再成为拖链的物理枷锁；其三，AI智能体以任务为中心融入操作系统与业务系统，复杂推理从“对话”升级为“行动”。当这三者结合，复杂思考的“执行层”将越来越多交由AI，复杂思考的“方向层”仍牢牢握在人手里。未来五年你会看到这样的日常：手机里的个人AI记住你的长期偏好，自动生成行程与沟通策略；工厂与城市的边缘节点在毫秒级内完成复杂联动；机器人在物理世界里进行连续推理与微调。背后是一条从算法、芯片到应用的全新流水线，而真正有粘性的，是那种把“快算力”转化为“好判断”的能力。所以，AI计算很快，复杂的逻辑思考要交给谁？交给人机共生的“新心智”。把枚举、拆解、验证交给AI，把取舍、目的与意义留给人。当速度不再稀缺，稀缺的是好的问题、明确的边界和可被解释的通往之路。愿我们用会思考的工具，去思考那些更值得的事。

新芯片架构如何打破巨头垄断，创造自己的生态？

想象一下，整座城市的人每天都要先挤出小区大门，再去市中心办一件小事，来回拥堵、时间飞逝、油耗惊人——这就是传统冯·诺依曼架构里“搬数据”的日常。新芯片架构的革命点，不是跑得更快一点，而是把“办事窗口”直接搬回每栋楼、每个房间：数据不出门，计算就完成。谁先把这条物理现实变成产品力，谁就有机会改写规则，撬动巨头的生态。打破垄断，先要换赛道。与其在云端和通用 GPU 正面硬碰，不如把战场拉到端侧与新应用：耳机几毫瓦里跑 Transformer 降噪、机器人1毫秒闭环控制、手机里常驻的个人助理。这些场景对延迟与能效极度敏感，云端“再快也不够快”。存算一体把乘加搬进存储阵列，让“数据不出楼就算完”，在并行度与每瓦效率上出现一到两个数量级的优势，这种硬差异，才是生态迁移的起点。生态不是喊出来，是长出来。历史已给出路径：GPU 靠 CUDA 提前十年铺路，ARM 在移动端用“合适的能效曲线”承接了开发者的想象，再由iOS/安卓滋养应用森林。要复刻这条曲线，新架构需要先提供一块“超额供给”的算力平台——让开发者在端侧第一次真的能把云端级模型跑起来，且成本、功耗、时延都有决定性优势。只有“别人做不到、你轻松做到”的体验，才会驱动应用主动迁徙。标准与硬件形态要同步推。内存侧的变革正在发生：LPDDR6-PIM 正把算力嵌入低功耗 DRAM，把数据搬运问题从源头化解；HBM 价格与产能波动正在逼迫行业寻找“近存/存内”的更优成本结构。抓住标准窗口、与头部内存厂协同，让编译器、算子库、接口规范在硬件成形前就“站队”，等市场爆发时，开发者不必二次学习，模型一键下沉，这就是抢时间的技巧。从小切大，是现实的工程路线。把几毫瓦的TWS耳机芯片，做成数瓦级的手机/机器人平台，不只是面积放大，而是存储阵列、电源网络、误差容限、精度格式、编译图谱的系统级重构。科学问题是“能否映射”，工程问题是“规模与良率能否站稳”。前者两年见分晓，后者往往要三到五年；越早all in，越早跨过“可用—好用—离不开”的三道坎。软件栈是命门，要“既新又兼容”。新架构要让 PyTorch/ONNX 模型零感知落地，同时释放专长：张量/矩阵并行的图优化、近存/存内原语的算子库、端侧长记忆与常驻服务的系统接口。提供免费的云端仿真、开发板与参考应用，把“能效与时延”转化为开发者看得懂的指标：每瓦token/s、每美元推理吞吐、每毫秒闭环的可靠度。当这些指标在真实产品中可复用，生态的惯性就会自己长出来。开放共建，是穿透垄断的杠杆。RISC‑V 展示了标准开放、实现差异化的双轮驱动；“开源生态+闭源核心”的混合模式，让基础工具与中间件广泛可用，同时保留架构与工艺上的护城河。在端侧 AI，开源编译器前端、模型优化工具、标注和评测基准的开放，能迅速放大开发者杠杆；而存内计算的电路工艺、误差校正、算子微架构，恰好是可以闭源沉淀的核心竞争力。别忘了“杀手级应用”的叙事权。当一块2瓦级芯片能在本地常驻大模型、全天候理解你、提前帮你完成任务——例如在你驶入车库前就替你发出“我快到了”的消息——这类“云端做不到、端侧刚刚好”的体验，会像当年多点触控那样改变用户预期。机器人亦然：真正能在1毫秒内感知—决策—执行的本体智能，才是生产力的起点。巨头的护城河在软件生态与供应链，但物理定律从不偏袒 incumbents。沿着能效、时延、并行度这些“硬指标”建立新标准，以开放凝聚开发者，以产品化证明“只此一家”的体验，生态就会在你脚下生长。技术史常常提醒我们：垄断看似坚不可摧，却经常被下一代问题的正确解法悄无声息地改写。真正的对手不是某家公司，而是时间本身——你能否在需求尚未到来时，先把桥修好。

新知 - 大圆镜｜AI芯片功耗危机？存算一体技术成破局关键

对抗知识焦虑，从看懂这条开始

App 下载

一场悄无声息的“发烧”

当你在手机上体验AI实时生成一幅画作，或是让智能音箱进行多轮复杂对话时，你或许会感觉到设备背板那令人不安的温升。这场AI驱动的智能革命，正伴随着一场悄无声息的“高烧”。大模型呼啸而至，算力需求呈指数级暴增，但我们掌中的智能设备，却被功耗和续航的物理极限牢牢铐住。云端的AI或许无所不能，但每一次调用都意味着数据往返的延迟、隐私泄露的风险以及高昂的能源账单。我们渴望一个能随时随地、即时响应、且无需为电量焦虑的AI时代。然而，一个根本性的障碍横亘在前：支撑了现代计算70余年的冯·诺依曼架构，正面临其诞生以来最严峻的挑战——“功耗墙”与“存储墙”。

越不过的“墙”

在传统的冯·诺依曼架构中，计算单元（CPU/GPU）与存储单元（内存）是分离的。想象一下，为了完成一次计算，数据需要像通勤者一样，在“居住区”（存储）和“办公区”（计算）之间来回奔波。这场旷日持久的“数据通勤”不仅耗费了大量时间，更惊人的是，它消耗了整个计算任务中60%到90%的无用功耗。这便是“存储墙”与“功耗墙”的由来，它们像两座大山，阻碍着AI算力与能效的进一步提升。当AI计算对数据带宽的需求飙升至PB/s级别时，传统内存几十GB/s的速度显得杯水车薪。正是在这一背景下，一场颠覆性的架构革命——存算一体（Computing-in-Memory），正从学术界的构想，加速走向产业现实。2024年，随着三星与SK海力士联手推动LPDDR6-PIM技术标准化，以及多款存算一体AI芯片的相继出货，这项旨在彻底推倒“高墙”的技术，正迎来其黄金时代。市场预测，2025年全球存算一体芯片市场规模将突破120亿美元，中国将占据其中30%的份额，一个全新的千亿级赛道已然开启。

一位博士生的远见

在这条新兴赛道上，知存科技（Witmem）是起步最早、坚持最久的探索者之一。它的故事始于创始人王绍迪博士在2014年一次不经意的思考。彼时，AI的浪潮初起，正在攻读博士的王绍迪敏锐地意识到，未来AI模型越强大，对存储器的依赖将远超CPU和GPU。“为什么不能让存储器自己来完成计算呢？”这个想法在他心中扎下了根。2017年，王绍迪博士毕业后毅然回国创业，成立了知存科技，一头扎进了当时还略显冷僻的存算一体领域。八年磨一剑。如今，知存科技不仅实现了存算一体芯片的规模化量产，其产品已成功应用于超过二十款消费电子产品中。2025年9月，公司更是入选了《麻省理工科技评论》年度“50家聪明公司”榜单，其上榜理由直指核心：“突破传统芯片存储与计算分离的架构，在能效、计算并行度、功耗等多个维度获得显著提升”。

让数据“原地思考”

存算一体究竟是如何施展“魔法”的？王绍迪用一个生动的比喻揭示了其奥秘。传统的计算方式，就像要从一个容纳数万人的体育场里找出两个人，把他们带到遥远的办公室，只为问一句“吃饭了吗？”，然后再把他们送回原位。整个过程中，找人、走路的代价远高于问话本身。而存算一体则完全不同。AI计算的核心，90%是简单且规整的乘法和加法运算。存算一体的逻辑是，如果这两个人恰好是邻居，我们根本无需让他们“出远门”，只需让他们在各自的单元楼里，打开门互相问候一声，就能完成任务。数据不再需要长途跋涉，而是在存储单元内部“就地解决”，这就是存算一体的精髓。这种架构上的革新带来了惊人的效率飞跃。如果说CPU是一次处理一个数据点，GPU凭借其并行架构能一次处理十万个点，那么存算一体则能将并行度提升至惊人的十亿个点，实现了又一次数量级的跨越。它并非简单地把计算和存储靠得更近（近存计算），而是让存储单元本身就化身为成千上万个微型计算器（存内计算），从根本上消除了数据通勤。

从耳机到机器人：端侧智能的进化之路

技术的价值最终要通过应用来体现。存算一体的第一个规模化落地场景，出人意料地选择了我们日常佩戴的TWS耳机。耳机的工作功耗通常只有几毫瓦，要在如此严苛的限制下运行复杂的AI算法，对传统芯片而言几乎是不可能的任务。但知存科技的芯片做到了。它能让耳机的AI算力提升50到100倍，足以在本地运行类似Transformer的大模型算法。这带来的体验是革命性的。传统的降噪技术是“减法”，识别并剔除噪音，但往往会损伤人声。而搭载了存算一体芯片的耳机则能做“生成式”降噪：它能理解你说话的内容、音色和语气，然后重新生成一段干净、清晰的人声，彻底摆脱背景噪音的干扰。如果说耳机只是牛刀小试，那么机器人则是存算一体技术志在必得的星辰大海。王绍迪坚信，未来的机器人若想真正具备生产力，与物理世界进行实时、流畅的交互，就必须在端侧完成绝大部分计算。云端往返的几十毫秒延迟，对于需要在一毫秒内做出反应的机械臂来说是致命的。只有当强大的AI大脑被植入机器人本体，它才能从一个听指令的木偶，进化为能够自主决策的智能体。存算一体，正是打造这颗强大、高效、低功耗端侧大脑的关键技术。

跨越工程鸿沟：从0到1000的挑战

从一个颠覆性的想法到一块能量产的芯片，中间隔着巨大的工程鸿沟。将Transformer这样的复杂算法范式映射到存算一体架构中，是一个需要攻克的科学问题。而如何将一颗功耗仅2毫瓦的耳机芯片，放大1000倍，做成一颗功耗2瓦、能驱动手机乃至机器人的高性能芯片，则是一个更为艰巨的工程问题。“我们从2017年创业，到第一颗芯片在2022年实现量产，花了五年多时间。”王绍迪坦言。这背后，是无数次的电路设计、工艺定制和软件适配。与传统芯片可以依赖成熟的先进工艺不同，存算一体的性能提升并不完全依赖制程的微缩，它更需要在成熟工艺（如28纳米）的基础上，对存储器进行深度定制和优化。这相当于换了一条赛道，避开了在先进制程上与巨头的直接竞争，转而在架构创新上建立护城河。如今，随着大模型时代的到来，算法规模暴涨万倍，传统芯片在端侧已然“跑不动”，这为存算一体创造了前所未有的机遇。知存科技正全力以赴，解决从科学到工程的“最后一公里”，预计在未来几年内，推出能够赋能手机、机器人等更复杂设备的存算一体芯片。

新的硅基战场

放眼全球，这场围绕存算一体的竞赛已然白热化。三星、SK海力士等存储巨头正从存储器本身出发，将计算能力融入其中；英特尔、IBM等传统芯片豪门也在积极布局；而在中国，除了知存科技，后摩智能、亿铸科技等一批创新企业也正快速崛起，它们或聚焦自动驾驶，或专攻大算力推理，共同构成了中国在该领域的集团军优势。一个清晰的趋势是，计算的重心正在从云端向边缘和端侧迁移。正如当年GPU的出现，是为了解决CPU无法高效处理的图形渲染任务，并最终在AI时代成为算力主角一样，存算一体的出现，正是为了解决GPU也难以应对的端侧能效瓶颈。未来，当AI计算成为智能设备的主要任务时，今天我们熟知的以CPU为核心的主芯片架构，或许将被以存算一体为核心的AI主导芯片所取代。这不仅是芯片技术的演进，更是计算范式的一场深刻变革。

结语：挣脱束缚的智能

我们正处在一个新旧计算范式交替的黎明时分。冯·诺依曼架构的“高墙”之下，AI的潜能被功耗和带宽所束缚。存算一体技术，以其回归物理本质的巧思，为我们展示了一条挣脱束缚的道路。它所描绘的未来，是一个智能无处不在，却又让我们感觉不到其存在的“无感化”时代。你的个人助理将真正实现24小时在线，主动为你管理日程、预判需求，而你无需再为手机的续航而焦虑。机器人将更深度地融入我们的生活和生产，灵活、安全地与我们协作。这场由存算一体驱动的变革，最终将重新定义智能的边界，让AI真正成为我们生活中自然、高效、且值得信赖的伙伴。