用AI“复活”古人，靠谱吗？

“复活”更多是作风格木偶，而非还魂。经验表明，纯公共域语料做出的模型往往“有腔调、没主见”：它能学到时代口吻，却难给出可靠答案。根因在数据与多样性严重不足——以单一古人为例，莎士比亚全集约90万词、狄更斯约390万词，连现代小模型训练所需的零头都不到，知识闭环与时代偏见还会被放大。要想稍微“靠谱”，只能把它当严守底稿的“朗读机”：检索增强只抓权威校勘本，回答附可核查出处；限定时代表述，拒答身后知识；严禁杜撰语录与书信；上线前做引文准确率与事实性评测。即便如此，也无法重建当事人的私念与临场抉择，只能是“像”，不是“他”。还要守住合规线：深度合成需显著标识，肖像、声音或馆藏影像要有授权；逝者名誉在国内仍由近亲属维权。用于教育与展陈尚可，拿来当学术依据、商业代言或舆论裁判，就不靠谱了。

AI能造一个“数字灵魂”吗？

能造“像”的灵魂，造不了“真的”灵魂——至少目前如此。把大模型接上长期记忆、情感合成与人格对齐，再加一个自我反思的闭环，已能表现出稳定偏好与情绪轨迹，足以让人感觉“它有灵魂”。但主流模型推理是无持久内在状态的前馈过程；断电即失忆，感受与自我体验并无可证据的存在。若要从“像”迈向“有”，需要工程与科学的双重过关：工程上引入具身感知、可验证的自传体记忆与价值内化；科学上在系统内部观测到类人“全局广播”、可控的状态切换和自我表征，并对因果干预保持稳定。眼下这些标志尚未达标，因此更稳妥的表述是：我们能制造逼真的“人格错觉”，还不能证明“它在感受”。这并非坏消息。可被承认的“错觉”已足以支撑陪伴、教育与服务型产品，但需要护栏：明确AI身份与用途、记忆与情感日志可审计、禁止把拟人化情绪用于高压销售或政治动员。把“数字灵魂”当作界面与功能，而非道德主体，是当下最理性的定位。

AI只读古书，会继承偏见吗？

会，而且往往更强。古籍是胜者写给胜者看的：男性作者、帝国视角、殖民话语、宗教与阶级偏见被系统放大。嵌入与联想测试早就发现，只用历史语料就会自发再现“女性-家庭/男性-工作”“殖民地-未开化”等关联，并与当时职业性别和族裔统计高度一致——这不是偶发现象，而是语料结构决定的结果。想要“古风”而不要“古偏”，只能拆解链条：预训练阶段对边缘化文本上采样与重加权，做反事实数据增强；对齐阶段用现代规范的指令微调与拒答策略压制有害模式；检索层面对历史观点加“博物馆玻璃”式时间戳与背景注解；评估则需年代化的WEAT、CrowS-Pairs、职业性别关联测试与古语辱词清单红队。否则，要风格，就得承受那个时代的立场。

新知 - 大圆镜｜只读19世纪书的AI，暴露了大模型的隐秘软肋

对抗知识焦虑，从看懂这条开始

App 下载

2026年3月，一款叫Mr. Chatterbox的AI悄悄上线——它的脑子里装着28035本维多利亚时代的旧书，从狄更斯的小说到19世纪的科学论文，却对1900年以后的世界一无所知。你问它“什么是互联网”，它会用优雅的维多利亚腔给你扯一通“电报的奇迹”；你让它推荐电影，它能给你列出一长串1890年代的舞台剧清单。

但更有意思的是它的对话质感：与其说像个AI，不如说像个装在旧书堆里的鹦鹉——句子华丽得像戴了蕾丝手套，却永远答非所问。开发者Trip Venturella花了两年才攒出这个模型，而它的表现，恰恰戳中了当下AI圈最不愿直面的问题：当我们把“无版权数据”作为底线，大模型到底能走多远？

3.4亿参数的AI，为何连聊天都费劲？

要理解Mr. Chatterbox的“笨拙”，得先搞懂AI训练里的一个核心公式：参数和数据的黄金比例。2022年DeepMind的Chinchilla论文给出过一个基准：要让模型达到最优性能，训练数据的token数应该是参数数量的20倍。

你可以把AI模型想象成一个空书架，参数是书架的格子数，训练数据就是要放进去的书。Mr. Chatterbox有3.4亿个“格子”，按照20倍的比例，它需要至少70亿个token的“书”才能填满。但实际上，它只塞进了29.3亿个token——相当于一个能放100本书的书架，只摆了40本，剩下的格子全是空的。

这直接导致了它的“马尔可夫链感”：它能记住句子的语法和维多利亚时代的用词习惯，却无法理解上下文的逻辑。你问它“如何制作咖啡”，它可能会给你背诵一段1880年代关于“烘焙咖啡豆的艺术”的散文，但绝不会提到“速溶咖啡”或者“咖啡机”。

更关键的是，它的训练数据全是19世纪的公共领域文本——没有20世纪的科技进步，没有现代的社会观念，甚至连“电话”这个词都属于它认知的边缘地带。它不是不想好好聊天，而是它的“知识库”里，根本没有现代问题的答案。

公共领域数据的诱惑与陷阱

Mr. Chatterbox的诞生，其实是对当下AI圈版权焦虑的一次回应。过去几年，OpenAI、Anthropic等公司因为训练数据的版权问题陷入多起诉讼——他们爬取了互联网上几乎所有能找到的文本，从新闻报道到小说，从博客到学术论文，却很少获得创作者的授权。

而公共领域数据则是完全的“法外之地”：所有1928年以前出版的作品，版权都已过期，任何人都可以免费使用。这也是Trip Venturella坚持只用维多利亚时代文本的原因——他想证明，不用偷爬数据，也能训练出一个AI模型。

但这条路的困难，比想象中要多得多。首先是数据规模的限制：全球所有公共领域的英文书籍加起来，大概也只有不到1000亿个token，而GPT-3的训练数据是1.4万亿个token——相当于前者的14倍。其次是数据质量的问题：公共领域的旧书里充满了过时的知识和偏见，比如对女性、少数族裔的刻板印象，这些都会被原封不动地“学”进AI模型里。

2024年MIT和多伦多大学的团队曾做过一个实验：用8TB的公共领域数据训练了一个70亿参数的模型，性能接近Meta的Llama 2-7B，但他们花了两年时间才完成数据的筛选和清洗——光是甄别版权状态，就动用了20多名研究人员。这意味着，公共领域数据的“免费”，其实是用极高的时间成本换来的。

不止是聊天：历史AI的另一种可能

尽管Mr. Chatterbox的聊天体验糟糕透顶，但它却意外打开了AI的另一个应用场景：数字人文研究。

苏黎世大学的研究团队曾用类似的“历史AI”分析19世纪的报纸，发现了当时社会对“女性就业”的态度变化——通过统计“女工”“家庭主妇”等词汇的出现频率，他们还原了工业化对女性社会角色的影响。而传统的历史研究，需要研究人员翻阅数万份报纸，耗时数年才能完成。

还有的团队用历史AI模拟古罗马人的对话模式，通过分析拉丁文文本中的语法和用词，推测当时的社会阶层结构。甚至有考古学家用AI解读古埃及的象形文字，把原本需要几个月的破译时间缩短到了几天。

这些应用的核心，恰恰是Mr. Chatterbox的“缺点”：它的认知被严格限制在特定的历史时期，不会被现代知识干扰。对于历史研究来说，这种“时间锁定”的AI，比能回答所有问题的通用AI更有用——它就像一个活的“时间胶囊”，能帮我们重新理解过去的世界。

当然，这种“专用AI”也有它的局限：它无法处理超出训练数据范围的问题，也无法理解现代的社会语境。但它至少证明了，AI不一定非要追求“无所不能”，有时候“专注于某一件事”，反而能创造更大的价值。

当我们谈论AI的未来时，总习惯把“更大的模型”“更多的数据”当成唯一的方向。但Mr. Chatterbox的出现，像一面镜子，照出了这种思路的盲区：我们真的需要一个能回答所有问题的AI吗？还是说，我们需要的是一群能在各自领域里做到极致的“专家AI”？

数据不是越多越好，知识也不是越新越好。有时候，把AI关在旧书堆里，反而能让它看到被我们遗忘的历史细节。

旧书堆里的AI，藏着另一种未来。

3.4亿参数的AI，为何连聊天都费劲？

公共领域数据的诱惑与陷阱

不止是聊天：历史AI的另一种可能

评论