大脑为何会“自讨苦吃”？

因为大脑优先追求“可预测与可控”，而不只是“舒服”。当一次行动能把坏事的时间、概率或信息变得可控时，即便伴随电击，这个行动也会被强化。终止不确定性的瞬间会触发缓解与奖励样信号（如纹状体/多巴胺的预测误差与内源性阿片的“痛停奖励”），并下调威胁回路的警报，于是“自己按下痛苦”，换来的是确定与掌控。随着训练，时序与反馈能把行为从目标导向塑造成不看后果的习惯；而强烈的负性刺激以“显著性”标签被更快学习，驱动多巴胺样更新，让厌恶也能像奖励那样管住手。结果就是：宁愿要一个可预期的小痛，也不要漫长的悬念、走神和失控感。要跳出“自讨苦吃”，别只评判刺激好坏，先改规则：让“安全期”与正确无为变得可见且被奖励，降低随机强化的黏性，并用可控暴露与即时反馈，把“掌控感”迁移到不伤身的替代行为上。

掌控感，比快乐更重要吗？

在多数情境下，是的。就长期幸福、健康与复原力而言，掌控感往往比当下的快乐更关键。经典养老院试验显示，给老人更多选择权与责任，18个月后死亡率约减半；实验室里，可控的噪声或电击显著降低皮质醇与心率反应。哪怕没有额外奖励，“能自己选”本身就让纹状体与腹内侧前额叶更活跃，主观满意度随之上升。其背后机理很直白：大脑把“我能影响结果”当作一种奖励。前额叶在评估可控性时，会抑制应激通路（如背缝核5-HT的过度放电），阻断习得性无助；多巴胺系统则给可控行为更高的学习权重，把压力转化为动机，而非消耗。当然，掌控并非越多越好。被动背负的“全责”会耗竭，脱离现实的“虚假控制”在投机与成瘾中适得其反。最佳配方是：可控的结构与清晰反馈，叠加有意义的目标和适度的不确定性。换句话说，有掌控感的快乐，才可持续。

我们为何会沉迷于坏消息？

因为大脑把“可能带来代价的讯号”设为最高优先级。负性线索更容易点燃杏仁核和去甲肾上腺素系统，提高警觉与记忆巩固；损失厌恶让我们对坏事更敏感；不确定本身就令人不适，坏消息哪怕刺痛，却能提供因果与预测，短暂缓解“未知”的焦虑，于是警戒—确认—缓解形成循环，让我们一刷再刷。更致命的是平台把这种偏好编进了“任务规则”。信息流的无限下拉与不定比率强化像老虎机：偶尔刷到关键风险、权威解读或他人的愤怒认同，就给了多巴胺式的“收获感”。算法偏好高唤醒内容，愤怒与恐惧天然胜出；大规模线上实验也发现，标题里多放负性词汇能显著抬高点击与停留。结果就像那篇经典行为学研究所示：即便结果不愉快，只要规则在强化，我们仍会不断“按下杠杆”——这便是沉迷坏消息的神经与行为合谋。

新知 - 大圆镜｜猴子主动按电击杠杆，我们错看了行为动机

对抗知识焦虑，从看懂这条开始

App 下载

关于大圆镜

大圆镜（dyj.live）·中文科普知识平台。1000+ 顶级一手科学信源（arXiv / Nature / Cell / DeepMind / 中科院等五层体系），每日精选 200+ 条世界级科学新知，AI 锐评 + 人工把关 + 完整证据链。

大圆镜是什么？

大圆镜（dyj.live）是中文科普知识平台，提供最新鲜的、可循证的硬核知识。以 1000+ 顶级一手科学信源（arXiv / Nature / Cell / DeepMind / 中科院等五层体系）为根基，每天精选 200+ 条世界级科学新知，AI 编辑流水线 + 人工把关完成锐评、深度解读、脉络梳理与真理追问。

大圆镜的内容跟其他科技媒体有什么不同？

不做二手搬运。每条都可追溯到原始一手信源（学术论文、机构发布、实验室博客），文末附 3-50+ 个学术 / 媒体 / 百科信源含发表年份与被引数。每条均经「信源权威度 + 新颖性 + 跨源验证 + 公众可读」多维评分入库。

大圆镜覆盖哪些学科？

全科普谱系，10 大领域：人工智能与计算、生命科学与医学、脑科学与认知、量子物理与天体物理、化学与材料、天文与空间、地球与环境、数学与统计、能源与工程、经济与社会。关键词含大语言模型、基因编辑、聚变能源、脑机接口、量子计算、商业航天、AlphaFold、CRISPR 等。

大圆镜接入了哪些信源？

1000+ 顶级一手信源，分五层：L1 预印本（arXiv / bioRxiv / medRxiv 等约 2,500 篇/日）、L2 顶级期刊（Nature / Science / Cell / NEJM / PNAS 等约 95 刊）、L3 机构 PR（NASA / NIH / 中科院 / MIT 等约 120 家）、L4 产业实验室（OpenAI / DeepMind / DeepSeek 等约 45 家）、L5 同业策展（Quanta / 量子位 / 机器之心等约 45 家）。

大圆镜的内容是 AI 生成的吗？

是 AI 编辑流水线 + 人工把关的工业化产线。AI 负责信源监控、标题生成、锐评撰写、多维评分；人工负责上线前的复审、阈值调整、质量持续迭代。所有信源、数据、引用均可溯源，不编造事实。

大圆镜有哪些产品模块？

七大产品矩阵：① 新知（个性化深度信息流，Web + App）② 灵镜岛（知识图谱式学习模块，App 端深度体验）③ 镜界（经认证科学家共建社区，App 端深度体验）④ 新知电报（分钟级科学进展快讯 + 突破性进展推送，App 端深度体验）⑤ 镜选（充电热榜，用户共创选题）⑥ 镜选片场（≥ 100 充电的待制作选题流水线）⑦ 视频（400 万粉「大圆镜科普」账号 IP 系列 + App 独家彩蛋）。

灵镜岛是什么？跟刷文章有什么差别？

灵镜岛是大圆镜 App 内的知识图谱学习模块。把每天产出的科学新知按「概念节点 + 关系边」织成认知地图，支持从入门概念到学术原文的多层级跳读。区别于「刷文章只看碎片」，灵镜岛让用户系统性掌握一个学科。

镜界是什么？里面的科学家是真实的吗？

镜界是大圆镜 App 内的科学家共建讨论社区（类似微信读书的「书友」模块）。采用实名认证制，目前认证身份为高校教师与机构研究员（蓝标），每位档案含所属机构、研究方向、代表论文。社区围绕大圆镜每日新知展开讨论 —— 读者可一键把新知文章里的精彩评论分享到镜界发起更广对话。

大圆镜的「充电」是什么？怎么影响内容生产？

「充电」是 App 内的支持机制（相当于「投票 + 关注」）。读者给镜选热榜的选题充电，累计达到 100 票即进入镜选片场（待制作流水线），按票数高低依次进入大圆镜制作排期。整个过程对所有读者透明可见，可追踪选题从充电到上线的每一步。

「大圆镜科普」视频账号是什么？《大脑简史》等 IP 在哪看？

「大圆镜科普」是大圆镜旗下视频科普账号，全网粉丝 400 万+，运营七大科普 IP 系列：《大脑简史》《生命科学简史》《人工智能简史》《古生物简史》《瘟疫简史》《成瘾简史》《未解之谜》。日常视频在 B 站、抖音、小红书、百家号等平台发布；大圆镜 App 内同步全集，并独家提供彩蛋内容、配套图片壁纸、BGM 素材、视频对应的文字版深度解读。

1969年的一间实验室里，松鼠猴的举动推翻了当时行为科学的常识：它反复按下杠杆，而每一次按压都会提前触发电击——这相当于主动给自己找不痛快。在另一种规则下，按杠杆只会在固定时间后触发电击，猴子却几乎不碰。

这不是自虐，更不是实验误差。神经科学家艾琳·卡利帕里在研究生课上读到这份研究时，突然意识到学界信奉了几十年的假设站不住脚：我们一直以为动物（包括人类）的行为，无非是趋利避害——追着奖励跑，躲开惩罚走。

但这些猴子用行动证明，真正驱动它们的不是电击的痛感，也不是虚拟的奖励，而是一套看不见的规则。这背后的逻辑，彻底改变了卡利帕里的研究生涯，也让我们重新理解行为的本质。

被混淆的两个词：奖赏与强化

要读懂猴子的反常行为，得先把两个被混为一谈的概念拆开：**奖赏（reward）是刺激带来的主观感受——比如食物的甜、电击的疼，是我们给体验贴的「好」或「坏」的标签；而强化（reinforcement）**是刺激对行为的实际影响——它能让某个动作重复出现，无论这个刺激本身是甜是疼。

你可以把奖赏比作一道菜的味道，强化则是你会不会再点这道菜。前者是主观感受，后者是行为结果——哪怕一道菜有点辣（负向感受），但吃了能让你出汗退烧（正向结果），你还是会再点。

Kelleher和Morse的实验把这个逻辑推到了极致：在「交错延迟规则」下，每按一次杠杆，电击就会提前一点到来，但猴子只要保持按压，就能精准控制电击的时间节奏；而在「固定延迟规则」下，按不按杠杆，电击都会在固定时间出现，猴子完全失去控制权。

猴子疯狂按压的不是「被电击」的结果，而是「能控制电击」的规则。这种行为模式，和它们为了获取食物而按压杠杆的节奏一模一样——此时的电击，已经从一个惩罚刺激，变成了维持行为的「强化物」。

皮层里的规则编码：大脑如何读「剧本」

猴子能读懂规则，是因为大脑的皮层早就进化出了一套「规则编码系统」——它不只是被动接收刺激，还会主动给刺激「贴标签」，而标签的内容完全由任务规则决定。

蒙古沙鼠的听觉皮层研究，把这套系统拆解得更清晰：当训练沙鼠区分两种音频，一开始「两种音频都能触发奖励」的规则下，听觉皮层的所有层级都只负责编码「声音来了」这个信息；而当规则变成「只有A音频能触发奖励」后，上层皮层立刻切换模式，开始编码「这是A还是B」的选择信息，深层皮层则负责把选择转化为行动。

简单说，大脑皮层像个分层的剧组：上层是编剧，负责解读任务规则，判断「该做什么」；下层是演员，负责执行动作，完成「怎么做」。而当规则改变时，编剧会立刻改剧本，演员也会跟着换动作——哪怕刺激本身没有任何变化。

更关键的是，这套编码系统还会被「强化历史」塑造。如果一只动物从小就在「按杠杆能控制结果」的环境中长大，它的皮层对规则的敏感度会显著提高，面对新任务时的适应速度也会更快；反之，长期处于「无论做什么都没用」环境中的动物，会出现「习得性无助」——哪怕规则变了，它也不会再尝试控制。

从实验室到现实：规则比奖励更重要

这套逻辑不只适用于实验室里的猴子和沙鼠，也能解释我们身边的很多行为。

比如训练实验用迷你猪时，用点击器训练（CT）的猪，比单纯用食物诱导的猪更愿意配合——因为点击器给了它们清晰的规则：「做对动作→听到响声→得到奖励」，它们能明确感知到「自己的行为能控制结果」；而食物诱导的猪，只会跟着食物走，一旦食物消失，就会停止行动。

再比如人类的拖延症：很多人不是不想完成任务，而是任务本身没有清晰的规则——「什么时候开始」「做到什么程度算完成」「完成了有什么具体结果」都模糊不清，大脑的皮层找不到可以编码的规则，自然就不会启动行为。

当然，这套规则驱动的行为模式也有局限。如果规则过于复杂，或者环境中的干扰刺激太多，大脑的编码系统会过载，导致行为混乱；而且一旦规则被打破，动物（包括人类）会出现强烈的应激反应——就像当你习惯了「红灯停绿灯行」，突然某天红绿灯乱闪，你会瞬间手足无措。

Kelleher和Morse的研究已经过去50多年，但它戳破的那个误区依然存在：我们还是习惯用「好」或「坏」去解释行为，用奖励和惩罚去驱动行为，却常常忽略了最核心的东西——规则。

行为的本质，从来不是趋利避害，而是寻找并遵循能让自己掌控环境的规则。

就像那些主动按杠杆的猴子，它们要的不是电击，也不是食物，而是「我能决定接下来发生什么」的掌控感。这种对规则的追求，刻在每一个动物的神经编码里，也藏在我们每一个人的日常选择中。