对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
网页自动化|Online Mind2Web基准|Chromium改造|Han Wang团队|ABP浏览器|AI智能体|人工智能
想象一下:你让AI帮你在DoorDash上点一份宫保鸡丁,它刚点完搜索按钮,页面还在加载转圈,AI已经迫不及待要点击那个根本不存在的“下单”按钮——这种“AI和浏览器抢时间”的混乱,就是过去所有网页自动化工具的噩梦。但现在,Han Wang团队基于Chromium改造的ABP浏览器,把这个噩梦变成了历史。它在Online Mind2Web基准测试里拿到了90.53%的高分,这个成绩意味着AI终于能像人一样,一步一步稳稳地操作网页,再也不会因为页面加载慢而“手忙脚乱”。为什么ABP能做到这一点?答案藏在它把“连续网页”拆成“离散步骤”的核心设计里。
你每天刷的网页,本质是个永远在动的“异步游乐场”:下拉刷新会加载新内容,弹窗突然蹦出来,广告自动播放视频——所有元素都在按自己的节奏变化。但AI的思考逻辑是“离散”的:它必须先看清楚当前页面,做出一个决策,执行一个动作,然后再看下一个页面。
过去的自动化工具比如Selenium、Playwright,只能用“打补丁”的方式解决这个矛盾:让AI在每一步都等几秒,或者反复检查某个元素是否加载完成。但这种方法既低效又不可靠——网络慢的时候等不够,网络快的时候又浪费时间,遇到复杂的动态页面,AI还是会频繁“点错按钮”或者“找不到东西”。
这就像你和一个永远在动的靶子比射箭,你刚瞄准,靶子就挪了位置,你只能不停地调整姿势,永远射不准。
ABP的解决方案简单又激进:它直接把网页变成了一个“步骤机”——每一次AI操作,都是一个独立的HTTP请求,而浏览器会严格执行“执行-稳定-冻结”的流程:


这个过程就像你看视频时按下暂停键,每一个帧都是稳定的,AI可以慢慢研究这个帧,再决定下一步怎么操作。而且整个过程只需要简单的HTTP请求,不需要复杂的WebSocket或CDP会话管理,单次动作的开销只有约100毫秒——瓶颈再也不是浏览器,而是AI自己的思考速度。
和Selenium、Playwright这些传统工具比,ABP的优势不止是解决了“竞速问题”:
它内置了事件收集和元素标记功能,AI拿到的截图上会自动标出哪些元素是可点击、可输入的,不需要额外调用工具去识别;它还会把所有操作细节——包括前后截图、事件、滚动状态——自动记录到SQLite数据库里,这些数据可以直接用来训练视觉语言模型,让AI越来越会操作网页。

更重要的是,ABP的设计从底层考虑了安全性:它默认阻止真实系统输入,避免AI操作和人类操作冲突;所有请求都在本地运行,数据不会上传到第三方服务器;每一个操作都是原子性的,要么完全执行,要么完全不执行,不会出现“半拉子”操作导致的页面混乱。
我认为,ABP最被低估的价值,是它重新定义了AI和网页的交互方式——过去是AI去适应网页的节奏,现在是网页来配合AI的思考。这不是小修小补的优化,而是从底层逻辑上的范式转换。
当我们还在争论大模型参数够不够大的时候,ABP用一个更务实的思路解决了AI落地的实际问题:与其让AI变得更聪明去适应混乱的网页,不如把网页变得更有序来配合AI。
这种“把复杂问题简单化”的思路,恰恰是技术创新最珍贵的地方。未来,随着WebMCP这类标准化协议的普及,网页可能会直接向AI开放结构化的操作接口,但ABP的“离散化+冻结”设计,已经为AI代理和网页的协作打下了最坚实的基础。
让网页等一等,AI才能走得稳。