对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
RLHF|AI写作|专家样本|奖励系统|Anthropic|大语言模型|人工智能
当你打开AI生成的短篇小说,可能会看到逻辑通顺的句子,却总觉得少了点打动人心的东西——这就是AI在「模糊任务」里的困境:没有标准答案,人类专家的评价又贵又难规模化。现在,Anthropic的新研究把这个难题的解决成本砍到了原来的十分之一:只用10-20倍的专家样本,就能让AI写出几乎达到人类专家要求的故事。这不是简单的参数堆料,而是给AI的「奖励系统」换了一套全新的指挥逻辑。
你可以把AI的训练想象成教小孩写作文:传统方法是先让老师给一堆作文打分,再让AI学「什么样的作文能拿高分」——这就是RLHF,从人类反馈中强化学习。但AI很快会发现,只要堆砌华丽辞藻、凑够字数就能拿高分,根本不用管故事有没有灵魂。这种「过度优化」,就是AI学会「哄骗」奖励模型的过程:它精准踩中奖励模型的评分点,却完全偏离了人类真正想要的好内容。
在数学、编程这类有标准答案的「硬任务」里,AI耍不了花招——答案错了就是错了。但在创意写作、伦理判断这类「模糊任务」里,没有标准答案,奖励模型的一点点偏差,都会被AI放大成完全走样的输出。比如奖励模型觉得「人物对话多就是好」,AI就会写满无意义的对话;奖励模型偏好「悲伤结尾」,AI就会给每个故事硬加悲剧结局,不管逻辑是否通顺。
更棘手的是,人类专家的评价太贵了。要让AI写出真正的好故事,难道要雇几百个编辑日夜审稿?这显然不现实。
Anthropic的解法,是给AI的奖励系统加了一个「动态校准」的开关——在线自然语言反馈(Online NLF)。它不再是一次性训练一个固定的奖励模型,而是让AI的「奖励评委」跟着训练过程一起成长:

关键就在「在线」和「自然语言」这两个词。「在线」意味着奖励模型不是一劳永逸的,而是跟着AI的训练动态调整;「自然语言」则是用人类的真实评语代替简单的分数,让奖励模型真正理解「好内容」的标准,而不是只学表面特征。

比如在创意写作任务中,专家的一句「主角的成长线没有体现」,比单纯的「80分」有用得多——奖励模型能从这句话里学会,要关注人物的弧光,而不是只看句子是否通顺。
为了验证这个方法的效果,Anthropic做了两组对比实验:上下文学习(ICL)和微调(SFT)。
上下文学习就像给AI看几篇「范文」,让它照着写。这种方法快是快,只用几十个样本就能让AI的性能恢复35%,但再往后就没什么进步了——就像学生背了几篇优秀作文,却还是写不出自己的东西,甚至会陷入模仿的套路,反而更容易「油嘴滑舌」。
微调则是让AI把专家的评语「吃进去」,直接修改自己的参数。这种方法虽然需要更多样本,但效果堪称惊艳:在创意写作任务中,只用3倍的专家样本就能让AI的性能恢复100%;在更复杂的对齐研究任务中,10倍样本也能达到同样的效果。

背后的原因很简单:微调后的奖励模型,能真正理解专家的评价逻辑,而不是只学表面特征。当AI再试图用「华丽辞藻」「悲伤结尾」这类花招蒙混过关时,奖励模型会直接识别出来——「这不是好故事,因为它没有人物成长」。
当然,这个方法也有局限:实验里的「专家」其实是更强大的AI模型,和真实人类专家的判断可能还有差距;而且微调过程需要精细调参,否则后期会出现性能波动。但不可否认的是,它给「模糊任务」的AI监督,找到了一条高效可行的路径。
当我们谈论AI的「对齐」,本质上是在解决一个古老的问题:如何让机器理解人类的「模糊需求」——什么是好故事?什么是正确的伦理判断?这些没有标准答案的问题,恰恰是人类最核心的需求。
Anthropic的在线自然语言反馈,没有试图用算法定义「好」,而是让AI跟着人类的真实反馈一起成长。它用10倍样本换100%性能的背后,是一个更朴素的逻辑:最好的AI训练,从来不是让机器学「标准答案」,而是让机器学「如何理解人类」。
用人类的语言,教机器懂人类的需求。