当摄像头有了“长期记忆”……

当摄像头有了“长期记忆”，它不再是逐帧的“目击者”，而是能讲清“前因后果”的叙事者：同一陌生人一小时内三次徘徊、货架被分批转移、车辆占道累计超时，都会被一口气说清且几乎零等待。更重要的是，记忆成本被压进固定显存里，边缘NVR不必把历史搬回CPU检索，报警延迟、上行带宽和能耗同时降下来，适配长时在线值守。但这份记忆也可能被“投毒”——如果攻击帧混入、锚点选错，偏见会在长期记忆里被放大；而现有评测偏爱“看当下”，对“隔几分钟后再答”的能力衡量不足。真正落地需要给记忆加审计与解释：把被保留的帧锚点可视化、记录保留理由，并按场景自适应地调节“锚点节拍”——人少静态时更稀疏，异常分数升高或用户提问时迅速加密与刷新。更高阶的路线，是把“近期敏捷”与“长期因果”拼成一体：前端沿用近帧优先以守住TTFT和清晰度，后台以层次锚点承接跨分钟乃至跨小时的线索；当风控触发或用户提问，再瞬时提升记忆粒度与回溯深度。那时，摄像头既能“此刻看得准”，也能“过后答得全”，而且一直运行在一块可负担的边缘GPU上。

模仿人类记忆，AI会“记错”吗？

会，而且“记错”的方式更像错位而非空白。流式场景里，近期偏好会把刚到画面当成真相；锚点保留又可能把偶发帧当长期事实；位置重索引与跨层异步会带来时序错配和来源混淆。常见后果是：答对了“发生了什么”，却答错“何时、何地、由谁”。HERMES用分层管理与跨层平滑在降低这类偏差，但本质仍是有损压缩与选择性编码，“假记忆”无法被彻底根除。应对之道不是追求“不忘”，而是让“错”可测、可纠：为每个保留token绑定帧ID与时间戳，强制答案携带可追溯引用；遇到计数/因果/时间顺序等高风险提问，触发毫秒级局部回放校验锚点邻域；以跨层一致性检查与置信度标注决定是否降级为“不确定”回答。这样既保实时，又把“记错”的代价压在可接受范围内。

AI记性太好，反而是种麻烦？

在流式场景里，“记性太好”首先是工程负担：长时缓存抬高显存与延迟，反而削弱当下感知。最新研究显示，仅保留2–8帧的极简方案在多项感知任务上就能胜出；而HERMES用层次化记忆把“该忘的果断忘”，在减少约68%视频token时仍维持甚至提升准确率，并把首个token时延加速到同类的10×。记忆若不受控，就是性能的天敌。更麻烦的是认知与合规风险。模型会形成难以察觉的隐式记忆：在一个最新基准上，顶尖模型对已习得偏好的“抑制”仅约17.6%，而“偏好”达75%，总体首答不超66%。这意味着过度留存会固化偏见、放大过时线索，甚至在跨会话里泄露敏感信息——你以为是“备忘录”，实际可能是“黑匣子”。解法不是“一概多记”，而是“可管、可删、可解释”。工程上用像HERMES那样的分层保留与跨层对齐，只为关键锚点付费；产品上设置TTL与配额，默认短期、按需长期，支持用户可验证的“被遗忘权”，并对记忆触发与召回做审计。真正聪明的AI，不是记得多，而是记得对、忘得快。

新知 - 大圆镜｜AI看视频流：少存68%内容，还能快10倍回答

对抗知识焦虑，从看懂这条开始

App 下载

先搞懂：AI看视频的“三难死局”

要理解HERMES的厉害，得先明白AI处理视频流时的尴尬。传统离线视频理解是“先存后看”：整个视频给过来，AI挑几帧采样分析就行。但流式视频是“边看边存”——直播、监控、机器人视角，画面一帧接一帧涌进来，用户什么时候提问、问什么全是未知。

这就把AI逼进了三难：要记得住关键信息，就得占更多GPU显存；要实时回答，就不能等检索历史；要显存不爆炸，就得删内容，但删多了又答不对。之前的解法要么是把历史视频存到外部硬盘，提问时再慢慢调回来，延迟高到能让人睡着；要么是粗暴压缩缓存，常常把关键帧也给删了，结果就是“一问三不知”。

HERMES的破局点，是把AI里一个叫KV Cache的东西重新定义了——这本来是AI推理时临时存数据的“草稿本”，团队把它改成了模拟人类记忆的三层系统。

核心：给AI装个“分层记忆大脑”

团队先做了个有意思的观察：AI的Transformer模型不同层，本来就有不同的“注意力偏好”——浅层爱盯最新的画面，中层会平衡新旧信息，深层则会盯着那些关键的“锚点帧”，比如进球瞬间、机器人拿起零件的时刻。这不正好对应人类的感官记忆、工作记忆和长期记忆吗？

HERMES就顺着这个天然分工，给KV Cache做了三层管理：

浅层（感官记忆）：只留最近的几帧，就像你刚看完的画面还在眼前，保证能回答“刚才发生了什么”；

中层（工作记忆）：一半看时间远近，一半看信息重要性，比如球赛里既记得刚传的球，也没忘之前的战术布置；

深层（长期记忆）：只留那些和用户提问最相关的关键锚点，比如进球、犯规这些核心事件，哪怕过了很久也能调出来。

光分层还不够，团队加了两个关键补丁：一是跨层记忆平滑，让深层的关键信息能同步给浅层，避免不同层“记岔了”；二是位置重索引，解决视频太长导致的索引溢出问题，保证AI不会“越记越乱”。最关键的是，这套系统不用额外训练，直接就能插到现有大模型上用。

实测：少存68%，反而答得更快更准

实验数据把这些设计的优势拍得明明白白：在StreamingBench等流式视频基准测试中，HERMES用Qwen2.5-VL-7B模型时，只用到原来32%的视频token，准确率却比基座模型高了6.13个百分点；在开放式问答任务里，最高能提分11.4%。

速度上更是夸张——首个token生成时间（TTFT）最高能快10倍，比如256帧输入时，HERMES的TTFT稳定在28毫秒左右，相当于用户刚问完，AI就开始回答了。而且不管视频流多长，它的显存占用都保持恒定，不会像传统方法那样看几个小时就把显存撑爆。

有意思的是，团队还在离线视频任务上测了HERMES，发现它的表现居然也和基座模型持平甚至更好——这说明这套分层记忆逻辑，不止能应付流式场景，还能通用到长视频理解里。

当我们谈论AI理解视频，过去总在想“怎么让它看得更全”，但HERMES给了另一个思路：让AI学会“怎么记才对”。就像人类不会记住每一秒的画面，只会把关键线索分层存进脑子里，AI也不需要当一个“硬盘”，而是要做一个会筛选信息的“观察者”。

记忆的本质不是存储，而是选择。这句话放在AI身上同样成立。未来在智能安防、机器人监控、实时视频助手这些场景里，我们不需要能存下所有画面的AI，需要的是能像人一样，盯着关键信息、立刻给出答案的AI——而HERMES，就是往这个方向迈的关键一步。

先搞懂：AI看视频的“三难死局”

核心：给AI装个“分层记忆大脑”

实测：少存68%，反而答得更快更准

评论