对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
网页操作|账号复用|互联网交互|开源项目|浏览器自动化|AI智能体|人工智能
当你还在手动切换标签页、重复登录网站时,AI已经悄悄变成了互联网的「超级用户」——它能同时打开10个网页并行调研,直接复用你Chrome里的所有登录账号,甚至像人一样判断「这个按钮是不是我要找的提交键」。2026年3月,四个开源项目在一周内拿下近3万星,它们共同完成了一件事:让AI彻底跳出「文本生成」的框,真正「接管」浏览器去执行复杂任务。这背后,是一套让AI像人一样上网的全新逻辑——而我们熟悉的互联网交互规则,正在被悄悄改写。
你可以把传统网页自动化想象成牵线木偶:程序员提前编好每一步动作,一旦网页按钮换了位置,木偶就直接僵住。但现在的AI Agent不一样,它靠的是两套核心协议实现「智能接管」——Chrome DevTools Protocol(CDP)和MCP协议。 CDP就像给AI开了个浏览器的「后门」,它能直接连入你正在用的Chrome,读取你已经登录的Cookie、会话状态,不用再重复输入验证码。简单说就是,你在小红书、GitHub上记住的登录状态,AI可以直接「借」来用。 而MCP协议更像AI和浏览器的「通用翻译器」,它把AI的自然语言指令,转换成浏览器能听懂的标准化操作命令,不用再写复杂的适配代码。比如你说「去看看这个产品的用户评价」,AI会先判断:是直接搜官网,还是去电商平台?要不要开多个标签页并行?过程中还会不断校验「我找的内容对不对」,直到完成任务。

最直观的效率提升来自并行分治:让AI同时调研5个产品官网,它会拆分出5个子Agent,每个独立开一个标签页,速度比串行操作快了整整3倍。
Chrome的问题在于,它从设计之初就是给人用的——要渲染图片、处理动画、加载字体,这些对AI来说全是冗余负担。有开发者干脆用Zig语言从零写了个专为AI服务的无头浏览器,100个并行页面抓取,Chrome要25.2秒,它只需要2.3秒;内存占用更是从4.2GB降到了696MB,快11倍,省83%内存。

它的核心逻辑很简单:砍掉所有和「视觉渲染」相关的代码。AI不需要「看」网页,只需要读取网页的结构和数据。这个叫Lightpanda的浏览器,连Chromium的代码都没碰过,完全从零搭建,却兼容CDP协议——你之前用Playwright写的自动化代码,一行都不用改就能跑。 更关键的是它内置了MCP Server,AI Agent可以直接发指令控制浏览器,不用额外搭转接工具。相当于给AI开了个专属的高速通道,不用再绕路。当然它还在Beta阶段,复杂的动态网页还处理不了,但光是「为AI定制」这个思路,就已经戳中了行业痛点:当AI成为互联网的新用户,浏览器也得跟着换赛道。
这些工具确实把AI的上网能力拉满了,但风险也随之而来。有个叫OpenClaw Zero Token的项目,靠浏览器自动化模拟登录状态,直接绕过了ChatGPT、Claude等平台的付费API——用户登录一次,就能免费调用这些模型的Web接口。但这种「白嫖」模式本质是绕开平台的付费机制,合规性存疑。 更棘手的是安全问题:当AI能直接访问你已登录的所有账号,一旦被恶意攻击,后果不堪设想。比如Prompt注入攻击——攻击者在网页里藏一段恶意指令,AI读取网页时就会被诱导执行有害操作。有安全团队发现,某个热门开源Agent存在8个高危漏洞,甚至能被远程控制执行代码。 目前行业的应对思路是「架构隔离」:把处理外部网页的AI和负责执行操作的AI分开,用确定性的规则引擎控制权限,就像给AI加了个「操作防火墙」。比如限制AI只能读取数据,不能修改;或者设置操作频率上限,防止被滥用。毕竟,效率再高,也得建立在安全的基础上。
当AI从「回答问题」变成「执行任务」,它已经不再是我们的「工具」,而是互联网的「新用户」。这个用户不会累、不会忘登录密码、能同时处理十件事,还能不断学习优化上网策略。 我们正在见证的,不是浏览器功能的升级,而是人与互联网交互方式的重构——未来你可能不需要再打开浏览器,只需要说一句「帮我调研下今年的手机新品」,AI就会替你完成所有网页操作,把结果整理好交给你。 「AI接管的不是浏览器,而是重复的数字劳动。」这句话正在变成现实,而我们要做的,是在效率与安全之间,找到让人与AI共生的平衡点。