AI“数据饥荒”是末日还是新生？

是新生。所谓“饥荒”逼着行业从“吃粗粮”转向“精耕细作”：用更干净、更可验证的数据替代海量网页。合成数据并非噱头——在受控生成下它遵循修正规模律，约3000亿token后收益趋缓；但模型坍塌与评测偏差是真风险，只有把生成—筛选—验证做成闭环（代码单测、数学验算、物理仿真等充当“真值器”），合成数据才会变成“高标号燃料”。新生的钥匙在三处：合规解锁高置信私有数据（联邦学习、数据洁净室、差分隐私叠加利益分配）；把人类“思维轨迹/隐性知识”结构化（决策过程、专家示教、过程监督而非只给答案）；让模型主动造数据（自博弈、具身仿真、主动学习聚焦不确定样本）。在部分推理与长尾场景中，精筛真实数据掺入约20%—50%的高质量合成样本，已能维持甚至提升泛化。当算力边际回报放缓，胜负将从“谁有更多”转向“谁更会种”。若政府与龙头共建可验证、可追溯的数据基础设施，企业在自有场景沉淀难以复制的高密度数据，“饥荒”反成筛子，留下更强的推理与可靠性。这不是末日，而是从量驱动到质驱动的发令枪。

AI吃“自己”，会进化出异世界吗？

“AI吃自己”指的是模型在自身或同类模型生成的数据上反复训练，同时合成内容回流污染公开语料。现实并不科幻：多项实验观察到所谓model collapse——稀有模式率先消失、分布熵与多样性下滑、事实逐轮漂移；有研究在迭代到第8—9轮时已出现近乎不可逆的塌缩。它更像信息的“近亲繁殖”：不是开辟新宇宙，而是退化成更顺嘴却更空洞的回声室。但在“有规则、可验真”的封闭环境里，AI确实会长出看似异世界的高招：自博弈围棋里的非常规妙手、物理仿真中反直觉抓取策略，都是在明确奖惩和约束下涌现的新解，并能迁回现实。开放领域若想探索而不迷航，必须系上“现实锚”：持续检索接地、真合混训并严格去重与溯源，对合成内容做水印过滤与抗GEO污染，多模型交叉审校，用代码与数学等可自动验证任务提供强监督。归根结底，AI不会凭空孕育自洽的“异世界”。要么在约束与验真里产生超人解法，扩人类边界；要么在无锚循环里自我同质化。决定走向的，不是“吃不吃自己”，而是配比、验证与治理。

你的“思维过程”也能卖钱了？

能卖，而且正在变成“高密度黄金数据”。前沿模型最缺的是可迁移的思维轨迹，高质量的决策链条能显著提升推理与对齐效果，已被医疗、金融、工程等行业打包成“思维轨迹库”、评测集与微调语料，按订阅或按量授权给模型方与应用开发者。国内的数据知识产权登记试点也在为此类资产提供确权与流转通道（部分地区证书有效期2–3年），叠加数据交易所，交易基础设施已具雏形。但“能卖”先要“能用且合规”。一是可验证性最关键：带标准答案或可复现实验结局的轨迹溢价最高，便于蒸馏与强化学习。二是隐私与安全要过关：研究显示模型在98%情形能识别敏感信息，却仍有约33%在推理轨迹中泄露；还存在H-CoT劫持等新攻击。实务上需禁回传原始思维、轨迹摘要替代、网关脱敏与分级留存（常见≤30天）、Chain‑of‑Sanitized‑Thoughts与SALT等技术减漏。三是可追溯与用途边界，用水印/元数据绑定来源、授权范围与撤回机制。真正的生意不是“卖一堆原始想法”，而是把专家脑内SOP结构化、可审计、可迁移：用少量高质人类思维链作种，配合自动生成与难例过采样扩展，再以评测与服务打包交付。谁掌握更干净、稀缺、难复制的思维数据，谁就握有下一阶段AI的定价权，同时也别忘了防止“一套主流思维模板”抹平认知多样性。

新知 - 大圆镜｜AI燃料快烧完了，人类要给机器造数据

对抗知识焦虑，从看懂这条开始

App 下载

为什么AI会把数据吃干抹净？

要理解这场数据危机，得先搞懂AI的“吃饭逻辑”。过去十年，AI的进步遵循一条简单的“规模定律”：模型参数越多、喂的数据越足、给的算力越强，AI就越聪明。OpenAI的GPT系列就是最好的例子——从GPT-1到GPT-4，参数翻了几十万倍，训练数据从几亿token涨到了几千亿，性能也从只会简单补全句子，变成能写代码、答高考题。

但这条定律有个致命的bug：AI吃的是人类积累了几十年甚至几千年的“库存”数据。维基百科是几千人维护20年的成果，经典图书是人类文明几千年的沉淀，互联网数据是过去几十年网民攒下的内容。这些数据是“不可再生资源”，用完就没了。

更糟的是，人类每年新产生的数据，大多是重复、低质的内容——比如网上的口水帖、重复的新闻稿，真正能用来喂AI的高质量数据，增长速度慢得像蜗牛。AI的胃口却在指数级膨胀，就像一个每天饭量翻倍的巨人，早晚会把家里存的粮吃光。

机器自己造数据，能救AI吗？

既然人类的库存不够用，有人想了个办法：让AI自己造数据。这听起来像“让母鸡自己生蛋自己孵”，但已经有不少公司在这么干了。

最常见的是“合成数据”——用AI生成和真实数据差不多的内容。比如Waymo用AI模拟各种罕见的交通事故场景，给自动驾驶模型做训练；银行用AI生成假的欺诈交易数据，训练反欺诈模型。这些合成数据不用怕隐私泄露，还能精准制造那些真实世界里很少发生的“边缘案例”，帮AI补上能力短板。

还有一种更聪明的玩法：“知识蒸馏”。让大模型当“老师”，把它学到的知识教给小模型。比如让GPT-4解数学题，把它的解题思路整理出来，再去训练更小的模型。这样既不用再啃那些已经被嚼烂的真实数据，还能把大模型的能力“压缩”到小模型里，降低成本。

但这种方法也有风险。如果AI一直吃自己造的数据，就像人只吃自己做的饭，早晚会营养不良——模型会变得越来越同质化，失去对真实世界的感知能力，甚至会生成错误的信息。这就叫“模型崩溃”，相当于AI的“智力退化”。

除了造数据，还有别的活路吗？

光靠AI自己造数据还不够，人类得从“库存”里抠出更多能用的东西。比如那些被锁在各个企业、医院里的“数据孤岛”——医院的病历、工厂的设备数据、银行的交易记录，这些都是高质量的数据，但因为隐私、合规的问题，一直没法用来训练AI。

现在有了“联邦学习”技术，不用把数据集中到一起，就能让多个机构一起训练模型。比如几家医院可以联合训练癌症诊断模型，每家医院的 data 都留在自己服务器上，只把模型的更新参数传出去，既保护了患者隐私，又能用上所有医院的数据。

还有一个被忽略的宝藏：人类的“隐性知识”。比如医生看病时的思考过程、老工匠的手艺、企业家做决策的思路，这些都是没法写成文字的“活知识”。现在有人在研究怎么把这些知识“数字化”——比如让医生一边看片一边说出自己的思考，录下来给AI做训练；或者用传感器记录老工匠的动作，让AI学习手艺。这些数据的价值比网上的口水帖高得多，可能是AI突破瓶颈的关键。

这场数据危机，其实是AI发展的一个转折点。过去我们总觉得，AI的进步靠的是更大的模型、更多的算力、更多的数据，但现在才发现，数据不是无限的，我们得学会“精打细算”地用数据。

未来的AI，可能不再是“吃得多就聪明”的巨人，而是“会挑食、会自己做饭、还会向人类请教”的学习者。这不仅是技术的进步，更是我们对AI的理解的转变——AI不是一个只会消耗资源的机器，而是一个能和人类一起创造、一起进化的伙伴。

数据枯竭不是终点，是AI学会独立的起点。

为什么AI会把数据吃干抹净？

机器自己造数据，能救AI吗？

除了造数据，还有别的活路吗？

评论