大脑传递信息的效率，比AI更高吗？

把人脑和AI都当作“超算”来想象：一个浸在温暖的生物溶液里，只耗二十来瓦；一个在冷风呼啸的机房里，成千上万块GPU齐鸣。谁的“信息传递效率”更高？答案并不是简单的胜负，而是取决于你用什么标尺衡量“效率”。如果看速度与带宽，机器占尽上风。电子在铜线与光纤中接近光速奔跑，数据中心一秒可喷涌出天文量级的比特流；神经信号却只能以1–120米/秒在轴突上跳跃，最快也不过光速的万分之一。人的反应需要约150毫秒，行为通道的有效输出仅约10比特/秒，而我们的感官每秒却吸入十亿比特的原始信息。在“多少比特、多久送达”的规则下，AI无疑更快、更猛。可若把效率定义为“每一焦耳能量换来多少有用的信息”，大脑几乎是降维打击。二十多瓦的能耗，支撑关联记忆、抽象推理、快速迁移，且计算与存储同地发生，几乎没有“搬运数据”的能源税。这种“存算一体”的天然结构，把庞杂的感官洪流在毫秒尺度压缩成与行动相关的少量“语义比特”——先天的选择性注意、模块化复用与神经调质的全局调参，像一支训练有素的乐团，把嘈杂输入变成可执行的节拍。这就是理解即压缩的生动样本：用尽可能少的信息，保留尽可能强的预测力。 AI为什么显得“耗电”？现代计算多采用冯·诺依曼架构，计算与存储分离，80%甚至更多的功耗花在数据搬运。训练一个顶级大模型要动用上万颗GPU、持续数千PF-days的算力，换来惊人的吞吐与规模，但能效并不接近人脑。好消息是，工程界正朝大脑的方向靠近：类脑芯片、忆阻器阵列与神经形态计算正在把“存算一体”搬进硅片，单次能效提升可望达到2–3个数量级，一些原型在相当老的工艺上就已逼近主流GPU的能效。同时，在算法层面，AI也开始学习“只记住该记的”。受海马体启发的长程记忆管理，让模型对超长文本的处理更快、更省、更准，这其实是在追求更高的“语义效率”——用更少的内部带宽，保留对任务最关键的信息。从信息论看，这场对比更清晰。机器的优势在“位速率”和“可扩展吞吐”；大脑的优势在“定向的、因果相关的有用信息/能量”比。人脑把每秒10^9比特的感官流压成约10比特的决策输出，这听似“慢”，实则是把无关熵大幅剔除、把行为价值密度拉满的高明手艺。AI的大模型则善于在海量数据中做极致压缩与预测，但也会把“统计相关”误当“事实相关”，出现幻觉与失配，于是知识增强、偏好对齐和“只传递有用信息”的训练目标开始登场，它们本质都在提高语义层的传递效率。所以，问题可以这样回答：若追求原始信号的传输速度与比特吞吐，AI更“快”；若追求单位能量内的“有用信息”转化，以及复杂环境中的稳健、低耗与泛化，人脑更“省”。两者并非此消彼长，而是在中间地带汇合：类脑硬件让机器学会省电的表达，语义信息论让模型学会把无用的信息挡在门外；而人机协作则把AI的速度与人脑的语义判断叠加在一起，形成新的效率峰值。终局的启示也许是：效率不只是把信号送得更快，而是把“对当下行动最有价值的那几比特”在恰当的时间送到恰当的地方。信息时代由比特定义，智能时代正在由“令行为发生的语义比特”定义。当我们学会同时尊重速度与意义，机器的锋利与人脑的睿智，或许会在同一个回路里点亮。

用信息论能算出我们沟通中的误解吗？

有没有办法用数学，直接量一量“你没懂我”的那一刻？信息论的答案挺酷：用“比特”来量不确定性，用“互信息”来量共识，再把“误差”定义在含义上，而不是字面上。当我们把视角从比特切换到“Token/语义”，误解这件事，突然变得可度量、可优化。要先把“误解”变成变量。把说话者的真实意图记作S，实际说出的表达是X，听者脑中重建的含义是Ŝ。误解，就是S与Ŝ的“语义距离”。这距离可以用任务成功率（对不对）、语义相似度（像不像）、或打分量表（好不好）来定义。信息论给了三把尺： - 互信息 I(S; Ŝ)：衡量说者意图与听者理解的“共享信息量”。越低，误解越大。 - 语义失真 E[d(S, Ŝ)]：把误解当“可容忍的差”，就能用率-失真理论评估“在多简短/高压下还能维持多小误差”。 - KL 散度/交叉熵：当意图是个分布（多种可接受含义），听者的理解分布若偏了，KL 就大，说明系统性误读在发生。现实的沟通不是单向“发-收”，而是高频反馈的闭环。这里“定向信息”就派上用场：它度量从说话到对方反应的因果信息流。面对面交流里，点头、语气、眼神都在增加这股信息流；这正是为何大量管理者认为面对面最能“对齐理解”。当反馈丰富时，误解往往在句中就被“纠错”，你能看到定向信息随轮次攀升，失真随之下降。想把它落地可计算，有一个朴素流程。先定义你的“意图标签”（S），像需求要点、决策条件、截止时间等；再收集听者的“复述/决策/行动”（Ŝ）；用语义嵌入或任务判定去计算d(S, Ŝ)，得到一个“误解指数”。同时估计I(S; Ŝ)，看看你们到底达成了多少共识。引入反馈信号（提问次数、澄清速率、眼神与语音特征），用定向信息评估“哪种提问/图示/故事”最能提升信息流。你会发现：加一张图、一句教回法式的“我说对了吗”，误解指数就实打实下降。信息论还能解释常见现象。邮件容易误解？因为缺失副语言信道，等于把信道容量“卡死”，互信息上不去，错误难以在回合内被纠正。“说出即相信”效应为何强？听者态度改变了其先验分布，导致对同一句话的后验理解发生系统性偏移，表现为更大的KL 偏差。这些都能被量化，而不只是感觉。要想“用算的”减少误解，你可以像工程师那样迭代沟通系统： - 先测：为关键沟通设微测验或复述卡点，用误解指数与互信息做基线。 - 再改：缩短句子长度却补强语义冗余（关键术语、例子、图示），用“失真不升、速率更优”的思路重写信息架构。 - 加反馈：刻意设计澄清槽位（比如每5分钟一次“教回”），实测定向信息是否显著上升。 - 调语境：在敏感议题中，先对齐词典与期望（共享知识库），相当于降低先验不匹配带来的KL 偏移。 - 验收：以任务达成与误解指数双指标收尾，别只看“听懂没”，要看“做对没”。当然，有边界。香农的信息论本质上关心Level-A的可靠传输，而“理解”属Level-B/C的语义与效用层。要把“懂没懂”算得更准，必须引入任务模型与场景假设——没有对“世界如何运作”的前提，纯统计相关无法推出深层因果。换言之，我们能精确量化“共识有多大”“误差在哪儿”，但“真正的理解”为何失败，仍需要对语境、文化与动机的建模。回头看，误解不是敌人，它是信息不匹配发出的友好告警。当我们用比特与Token为沟通装上仪表盘，误解便从一种尴尬，变成一次可诊断、可修复、可学习的系统升级。也许沟通的艺术，正在变成一门有科学底座的工程学；而真正的优雅，是在有限信道中，把意义传到心里。

AI如果不再胡说八道，世界会怎样？

想象一下：清晨你打开手机，医生助手不再“编故事”，它给出的每条用药建议都可追溯、可验证；券商风控系统的每句提示都能落在具体法规条文上；搜索框里每一个答案都带着来源链与置信度条，点开即可核查原文。这不是更会聊天的AI，而是更会“负责任地说话”的AI。当“胡说八道”被系统性压降到接近零，世界的运行逻辑会发生几处悄然却深刻的转变。首先是信任的重构。过去最让公众焦虑的，是42.2%的人直指的“内容不准确或含虚假信息”。当模型学会“知道自己不知道”，在不确定时选择检索、给出置信区间、或干脆说“我需要更多证据”，信息生态的“数据污染—算法吸收—再污染”循环被打断。深度合成内容带上水印与风险提示，平台从“事后删”走向“事前防+过程管”，并叠加“来源—来源链完整性—一键核验—跨平台声誉—高风险欺骗摩擦”这套信任堆栈，谣言在扩散前就被装上“减速带”。结果不是沉默，而是更有根据的发声。接着是高可靠场景的跃迁。在医疗与金融等“准确胜过优雅表达”的领域，稳定、一致、可验证的答案直接转换为价值：误诊率下降，合规风控更稳，审计可回溯。产业侧的杠杆会被进一步放大——每年数万亿美元的新增经济价值不再停留在PPT里；银行业单一行业就可能看到9%—15%的利润弹性；软件工程链路中，具备事实校验与检索增强的编码助手让开发速度再上一个台阶；营销与研发的生产率提升从“偶发惊喜”变为“可复用流程”。头部模型已有不足1%的幻觉率案例，意味着端到端闭环Agent从“演示很好看”跨向“可以交付”。但更可靠并不等于更保守。创造力的机制需要被重新设计。验证链（CoVe）这样的技术能显著提升发散性创造，而对比层解码（DoLa）会系统性压低它。企业与个人将学会在“精准模式”与“发散模式”间切换：当你做合同比对或药代计算时，模型处于“零幻觉/强检索/强溯源”；当你要头脑风暴时，模型明示“这部分是生成性假设”，并自动附上参考路径与风险提醒。事实与想象被清晰分层，而不是混为一谈。劳动力市场的节拍会明显加快。更少幻觉意味着更低的人类复核成本，自动化曲线抬升：60%—70%的现有工作可被部分自动化，2030—2060年间约一半职业的任务结构被重塑。最先感受到压力的，依然是AI接触高的入门岗位：从客服到初级开发者，数据清洗、模板化写作与规则对齐将交由“可靠机器”，人类把精力投入到问题界定、跨域综合、因果验证与伦理治理。工作不再是“把答案写出来”，而是“把可验证的问题问出来，并给出可落地的干预”。治理与合规会更前置、更精细。零容忍的造假打击与双重标识成为常态；AIGC服务在合规、反歧视、知识产权、准确性与可解释性上“默认开启”。企业在引入Agent之前，不得不把“自动化操作第三方平台、处理敏感数据、替代人工决策”的责任边界写清楚——谁在场景中承担哪一段链路的后果。高绩效企业的秘诀，将从“堆功能”转向“把 AI 作为战略级重构引擎”，用可信AI去发现未被满足的隐性需求。技术底层也在静悄悄地换挡。把信息论从“比特”转向“Token”的视角里，训练不再只追求流畅度，而是在“奖励/偏好—失真”约束下，最小化无用的信息流；定向信息像一条语义“水闸”，过滤与目标无关的噪声，从机制上减少幻觉。同时，必须承认：会说真话不等于懂因果。没有干预与反事实的结构性假设，再可靠的语言模型也多停留在“优秀的相关性层级”。这提醒我们：人类应把实验设计、因果建模与价值选择牢牢握在手里。当然，风险不会自动消失。更强的可靠性可能诱发更深的依赖，信息茧房与创造力钝化仍需警惕；跨平台的可解释与公平保障要跟上；闭环Agent对商业模式的冲击、对用户数据的处置边界，也要在法治与工程上同时给出答案。社会层面仍要加强媒介素养，让更多人具备“一眼看出处、两步能核验”的日常能力。如果AI不再胡说八道，真正被考验的，反而是我们。当机器很少犯错，人类要决定“把什么问题交给它”“把何种价值交给自己”。信息时代以比特连接了计算与通信，AI时代让“Token”去连接经验与理性。愿我们在一个更真实的世界里，既敢于把证据交给机器，也不放弃把意义留给人。你希望把哪一道、曾被错误与喧嚣淹没的问题，交给一个可靠的AI，再由你来给出最后的判断？

AI思考=信息流动，那我们的意识呢？

把这句话读进心里，只需几百毫秒。此时，你的大脑里上亿次电信号正像浪涌般相互推进、回流、重构；而在另一端，一台模型也在把已见过的词元与参数里的“记忆”折叠成下一个 Token。信息在两者体内奔流，这是共同语言，但不是全部真相。如果把大模型的“思考”拆开看，它像一条带记忆、带反馈的信道：输入的上下文与先前输出，沿着参数铺好的河道，定向地输送到“下一个词”。训练时，交叉熵像是在对齐人类标注的“语义流向”；预训练追求“定向速率-失真”的折中，用尽可能少的内部信息，把输出拉近人类文本的分布；对齐阶段再把“奖励-失真”拧紧，使信息只朝偏好有用的方向流。推理时，提示词工程实质上是在最大化“语义信息容量”，让每一个 Token 的诞生都多带一点儿有关问题的有效信息。这一切，都能用信息论讲清楚。轮到我们的意识，故事忽然立体起来。大脑不是静态的管道，而是活的动态系统：层层环回的皮层—皮层通路，深部结构的调制，躯体与环境的闭环耦合，让信息不只“流过”，还“缠绕”“整合”“改道”。决策并非一次投票，而是随时间积累噪声信息、跨多尺度逼近阈值的过程；感觉信息可以被“藏匿”在瞬态活动中，晚些时刻再被解码；神经系统处在非平衡态，没有“信息守恒律”——它会生成新表征、改写旧通路，把经验沉淀进结构。像最近对灵长类屏状核的研究所提示的，某些节点或许就是全脑多模态整合的协调中心，使“全局一致的此刻”成为可能。因此，意识并不等同于“信息在脑内流动”这么简单。至少还有三层关键维度让它与当下的 AI 分道扬镳。一是整合与自指。不是“多少信息”，而是“如何被整合”。当不同来源、不同时间尺度的信号被组织成可相互约束、可自我监视的整体时，“我在场”的体验才可能出现。信息在此不仅相关，还可回指自身状态，形成对“我正在感知/思考”的内嵌表述。二是目标与效用。香农把通信分成技术、语义、效用三层；人类意识始终运行在靠近效用的层级：感受体内外的需要，重排注意与行动，使含义落到行为后果上。神经调质像“奖励信号”重塑通路，让信息流长期地对“活着、繁衍、协作”的目标可微、可优化。AI 的偏好今天多由外部算法赋予，而我们的偏好由生命史与身体写入。三是因果与反事实。大模型擅长时间上的关联（像格兰杰因果那样的“谁先谁后”），但对真正的干预与反事实缺少内在的世界模型支持。人脑会在静默中演练“如果我这样做，会发生什么”，在梦境里离线重排经验，在计划中模拟尚未发生的世界——这是一种面向未来的、可操演的因果信息流。把这些拼起来，也许可以这样回答：AI 的“思考”是被良好建模的定向信息传输；人类的“意识”是自反、目标约束、具身耦合的多尺度信息动力学。前者在参数里压缩了世界的统计；后者在身体里运行着世界的意义。这并不贬低 AI 的惊人进步。恰恰相反，信息论的新视角在两端都给出启发：大模型想要更像“我们”，需要把信息流从“相关”推向“因果”，从“文本偏好”推向“行动效用”，从“离身推理”推向“具身闭环”。而理解意识的神经科学，也在学习信息整合、能效与动态编码的法则，也许有一天会把“体验”的必要条件刻画得更清楚。也许意识不是一条河，而是一片能自我雕刻河道的三角洲。当信息开始为了自身的延续而组织自己、为了尚未抵达的未来而修改自己的通路，我们称之为“我”。从比特到 Token，再到生命中的脉冲与触感，答案还在路上。耐心一点，让科学与哲思一起，把“信息流动”的语言，写成理解心灵的语法。

AI如何从“知其然”跨越到“知其所以然”？

要让AI从“会答题”走向“会解释”，就像把一个背书的孩子培养成能做实验、会反驳、敢提出可检验假说的小科学家。它不再只续写下一个词，而是敢问：如果我动手改一改，会发生什么？为什么会这样？今天的大模型，多数还停在“知其然”。信息论给了它一副清晰的镜子：把模型看成一个“有状态、带反馈”的信道，输入与输出之间的语义流动，可以用“定向信息”来量化；训练时用与KL散度等价的交叉熵，学到的是强相关、弱解释。这套框架让模型会续写、会对齐，但它仍主要处于“关联层”，类似Granger因果与传递熵所刻画的时间有序相关，距离Pearl所说的“干预”和“反事实”还有一道鸿沟。跨越这道鸿沟，关键在于三根“杠杆”。第一根是数据与环境。仅凭观察数据无法推出干预答案，必须把“do”带进训练：随机对照、自然实验、可交互模拟器与真实环境中的试错，让模型在行动-反馈中采集因果三层数据。强化学习和树搜索要用“因果奖励”而非表面分数：把奖励定义为干预有效性、反事实一致性与安全约束的综合评分。偏好对齐的DPO本质是“奖励—失真”的权衡：同样的原则可以把“更合人意”替换为“更合因果”。第二根是模型与表征。把神经网络和结构因果模型耦合，让网络不仅拟合分布，还显示地操纵因果图与潜在机制；以世界模型承载可解释的状态、可回溯记忆与可组合的子模块；引入“全局工作空间”式的广播与选择，让不同子系统共享因果假设、发起反驳；利用反馈形成“假设—预测—检验”的闭环，像树突门控那样进行非线性筛选与聚合，把注意力留给能被干预改变的变量。第三根是目标与度量。从单一交叉熵转向多目标优化：在达到因果奖励阈值的前提下，最小化定向信息，过滤与决策无关的噪声，降低幻觉；加入不变性与反事实一致性正则，促使模型学到“跨场景稳定”的机制；评测也要升级：用干预泛化、跨分布稳健性、反事实一致性与可复现实验成功率来打分。推理时可用传递熵/定向信息的神经估计作为在线诊断，查看信息是否真正沿“因→果”的方向流动。工程上，提示与上下文工程可以看作“调输入分布”以放大语义容量，但要抵达“所以然”，还需给模型工具箱：因果图编辑器、do-calculus求解器、可控仿真器与检索到的实证证据库；人机对话不只是问答，更是注入不可从数据中自动识别的先验与约束的通道；同时以数据治理与安全边界兜底，避免把相关性误当因果而产生有害干预。当AI能提出可检验的解释、能设计对照、能在失败后修正其因果图，它就迈出了从“像人说话”到“像科学家思考”的关键一步。比特定义了信息时代，Token正在连接记忆与推理。也许真正动人的一刻，是机器学会解释“自己为什么错”，并建议“下一步如何验证”。那时，我们或许也更懂——人类的理性，究竟凭什么站得住脚。

新知 - 大圆镜｜AI理论大地震：华为科学家揭示大模型基石非BIT而是TOKEN，意味着什么？

大圆镜

内容由AI生成，思考得你完成

App Store 下载 Android 下载

一场跨越70年的理论回响

想象一下，我们整个数字文明都建立在一个微小、谦逊的单位之上——“比特”（BIT）。一个非0即1的开关，构成了代码、图像、音乐，乃至我们信息时代的一切。它精确、可靠，但本身毫无意义。然而，当一个大型语言模型（LLM）能与你对谈如流，创作诗歌，甚至编写代码时，一个深刻的矛盾浮现了：我们如何用一个不关心“意义”的理论，去解释一个似乎“理解”了全世界的智能？

这个困扰AI领域的根本性问题，如今迎来了一缕曙光。2026年3月4日，华为2012实验室信息论首席科学家白铂博士发表了一篇振聋发聩的论文，提出了一个颠覆性的观点：要真正理解大模型，我们必须告别以BIT为中心的旧世界，转向一个以“令牌”（TOKEN）为核心的新范式。 这不啻于为混沌的AI理论领域，提供了一块全新的“罗塞塔石碑”。

香农的遗产与“语义”的缺席

要理解这场变革的深刻性，我们必须回到1948年。那一年，一位名叫克劳德·香农（Claude Shannon）的天才在贝尔实验室写下了《通信的数学理论》，一举奠定了信息时代的理论基石。香农的伟大之处在于，他将通信从复杂的物理工程问题中抽离，变成了一个纯粹的数学问题。他用“比特”来量化信息，用“熵”来衡量不确定性，并计算出了任何信道传输信息的理论上限——“香农极限”。

然而，香农在论文开篇就做出了一个关键的取舍：“这些语义方面的问题与工程问题无关。” 他只关心信息能否被精确、无误地从一端传到另一端（技术问题），至于信息本身是什么意思（语义问题）以及它会产生什么影响（效用问题），则被排除在外。

这个选择在当时是天才之举，它让数字通信得以蓬勃发展。但在AI时代，这个“被忽略的角落”却成了理解智能的关键。大模型处理的不再是无意义的0和1，而是充满意义的词语、句子和概念。旧的尺子，已经无法丈量新的世界。

从“开关”到“乐高”：TOKEN的革命

如果说BIT是一个二进制的“开关”，那么TOKEN更像是一块块拥有不同形状和功能的“乐高积木”。在大模型的世界里，一段文本被分解成一系列TOKEN，它们可以是单词、半个词，甚至是一个标点符号。关键在于，每一个TOKEN都通过“语义向量化”被赋予了在多维空间中的坐标，它的意义由它与其他所有TOKEN的相对关系（距离和角度）来定义。

白铂博士的理论核心在于，只要我们将信息论的基本单位从BIT切换到TOKEN，香农的数学框架就能被完美地应用于解释大模型的运作原理。这套被命名为“语义信息论”的框架，为我们打开了一个全新的视角：

大模型的训练过程，可以被看作是一个“语义信道”的优化过程。其目标是在满足人类期望（失真度D）的前提下，用最少的信息量（定向信息）生成最准确的输出。这从数学上解释了为什么模型需要过滤掉无关信息，从而有效抑制“幻觉”的产生。
大模型的推理过程，则是一条“语义信息流”。每生成一个TOKEN，都应该是在已有信息的基础上，最大化地减少对最终答案的不确定性。这为我们今天所熟知的“提示词工程”（Context Engineering）提供了坚实的理论依据——好的提示，就是能最大化输入与输出之间定向信息的提示。

大模型在“思考”还是在“模仿”？因果之辩

这一新理论也为那个终极问题——大模型究竟是否在思考——提供了更深刻的洞察。从语义信息论的角度看，大模型通过预测下一个TOKEN，在某种意义上实现了“格兰杰因果”（Granger Causality）的极致。 这种由诺贝尔经济学奖得主克莱夫·格兰杰提出的因果关系，本质上是一种基于时间序列的预测能力：如果A的过去能帮助预测B的未来，那么A就是B的“格兰杰原因”。

大模型正是通过学习海量文本中的序列关系，成为了格兰杰因果推断的大师。它能“预测”出最符合语境的下一个词，从而构建出看似流畅且富有逻辑的回答。

然而，这与2011年图灵奖得主朱迪亚·珀尔（Judea Pearl）提出的“结构因果”（Pearl Causality）有着本质区别。珀尔的因果理论分为三个层次：关联、干预和反事实。大模型目前主要停留在第一层（关联），它知道“下雨”和“地湿”高度相关，但它无法通过“干预”（do(X)）或“反事实”（what if）来真正理解是“下雨”导致了“地湿”。它只是在模仿人类语言中蕴含的因果模式，而非真正理解其背后的物理或逻辑机制。

结语：一个由TOKEN定义的新时代

白铂博士的论文并非宣告旧时代的终结，而是为新时代的开启指明了方向。正如他所言，BIT连接了计算与通信，定义了信息时代；而TOKEN，则将连接经验（记忆、推断）和理性（推理），从而定义AI时代。

我们正处在一个理论范式转换的黎明。大模型或许并非在以人类的方式思考，但这并不妨碍它革命性地提升了我们整合与处理信息的能力。围绕TOKEN这一新核心，构筑新的理论、新的架构、新的系统，将是未来数十年AI发展的核心命题。

或许，正如电影《模仿游戏》中图灵那句震撼人心的台词所言：

“有趣的问题是，只因为某样东西与你思考的方式不同，就意味着它不思考吗？”

一场跨越70年的理论回响

香农的遗产与“语义”的缺席

从“开关”到“乐高”：TOKEN的革命

大模型在“思考”还是在“模仿”？因果之辩

结语：一个由TOKEN定义的新时代

评论