对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
视频生成|盲测榜单|Elo积分|Seedance 2.0|匿名AI视频模型|多模态视觉|人工智能
当所有人以为OpenAI暂停Sora后,视频生成AI的王座会被刚登顶五天的Seedance 2.0坐稳时,一匹匿名的“欢乐马”凭空撞开了竞技场的大门。在全球用户蒙眼二选一的盲测榜单上,它的纯视频生成Elo积分飙到1347分——领先第二名整整74分。要知道从第二名到第十九名的总分差加起来才70分,这种断层式碾压,在AI模型的评测史上都少见。更离谱的是,随着投票样本增加,一二名的分差还在持续拉大。
这份榜单的公信力,恰恰来自“蒙眼”二字。所有投票都由普通用户在不知道模型身份的情况下完成,团队没法靠刷数据作弊。Seedance 2.0此前靠极佳的镜头连贯性和多场景能力火遍社区,而这匹匿名马能在纯视觉观感上把它远远甩在身后,简直是在现有技术认知上凿开了一道缝。唯一的短板是在音视频综合排名上,它的音效同步和细腻度略逊一筹,暂时屈居第二。

它的秘密藏在架构里。不同于传统多模态模型用多分支分别处理文本、视频、音频,再靠交叉注意力捏合信息,这匹“马”用了40层单流自注意力Transformer——把所有模态的信息揉进同一个序列里处理,没有冗余的分支,也不用来回传递数据。就像把厨房的切菜、炒菜、调味全交给一个厨师,而不是三个各管一段的流水线,效率和配合度都翻了倍。

更狠的是它的推理策略。普通扩散模型要几十上百步去噪才能生成视频,它只用8步,还抛弃了传统的分类器自由引导技术。这意味着它在训练时就像把一本厚书压缩成了小册子,直接跳过了冗余的思考步骤,却没丢核心内容。这种“极简主义”不仅让生成速度快了数倍,还让它在处理人体动作、物理细节时,能精准跟上提示词的每一个要求——比如呼啦圈从腰爬到胸再落到膝盖的连贯轨迹,猫咪碰烤面包机时倒影同步回应的细节,都能做到丝毫不差。

但它的匿名身份和未公开的API,也让整个社区悬着心。有人猜测它来自国内团队,甚至扒出了一个疑似官网的域名,但至今没有官方认领。目前它还只能在评测平台的样本里被围观,普通开发者没法下载部署,更别说用到生产场景里。而它的音频短板,也暴露了单流架构在复杂音画同步上的局限——就像一个擅长画画的人,还没学会给画配出恰到好处的背景音乐。

这匹“欢乐马”的出现,其实是给整个AI视频领域提了个醒:当所有人都在往模型里堆参数、加分支时,或许少即是多。它用单流架构和极简推理证明,效率和质量未必是对立面。但匿名的面纱下,它的训练数据来源、是否真的能开源、以及能否解决音频同步的问题,都还是待解的谜。毕竟,在AI的竞技场里,一时的分数领先,不代表能坐稳王座——能落地、能被真正用起来的技术,才会成为真正的风向标。

技术的迭代,从来不是线性的。有时候,一匹横空出世的“黑马”,就能把整个赛道的方向,彻底拐到新的路口。