
19 小时前
打开一份几千行、满是合并单元格和红色标记的Excel,你会不会盯着屏幕发呆?现在的AI面对这种表格,就像用短信读一本带插画的书——要么丢了颜色、边框这些关键信息,要么内容太长直接“罢工”。香港中文大学和商汤的团队最近搞出的SpreadsheetAgent,却让AI能像特种小队一样分工拆解复杂表格,在真实业务测试中准确率比ChatGPT Agent还高了近3个百分点。它到底是怎么做到的?
你可以把SpreadsheetAgent想象成一支执行任务的小队:提取智能体是侦察兵,负责先扫一遍表格,把层级表头、合并单元格、红色标记这些关键信息记下来,生成一份YAML格式的“侦察报告”;验证智能体是质检员,专门盯着报告里最容易出错的地方——比如复杂的合并区域,它会调用工具重新核对,发现错误就打回去让侦察兵修正。

这个“侦察-验证-修正”的循环会反复进行,直到报告准确无误。最后这份YAML报告就像一张精准的地图,后续的求解智能体拿着它,就能轻松回答“销售部第二季度华东地区标红产品总利润”这类复杂问题,不用再对着整个大表格抓瞎。

光靠两个智能体还不够,这支小队还带了三个“外挂”工具,专门解决传统AI处理表格的痛点。
第一个是代码执行工具,相当于小队里的计算兵——遇到需要求和、筛选的问题,它会自动生成Python代码运行,给出精确结果,避免AI凭感觉“瞎算”。第二个是视觉截图工具,配合视觉语言模型(VLM)当“眼睛”,能把表格里的颜色、边框、图表这些纯文本丢失的信息捡回来,比如准确识别哪些单元格是红色的。第三个是LaTeX工具,像个绘图师,能把复杂的层级表头转成LaTeX代码,让AI清楚看懂表头的嵌套关系,不会把“销售部”和“第二季度”的层级搞混。

这三个工具各司其职,又能互相配合:比如验证智能体怀疑侦察兵漏了红色标记,就会调用视觉工具截图核对;如果发现表头层级错了,就用LaTeX工具重新解析。
不过这套方案也不是完美的。处理一份表格平均要97.5秒,还得调用多个大模型,显存最高要用到21GB——这意味着它暂时没法像Excel插件那样实时响应,更适合后台批量处理审计报表、销售数据这类不用急着要结果的场景。
更关键的是,它的视觉理解能力完全依赖于用到的VLM,如果VLM本身识别错了颜色或边框,整个流程都会跟着出错。而且面对数据透视表、动态图表这类更复杂的内容,它现在还力有不逮。但不可否认的是,它给AI处理真实世界里的“脏乱差”表格指了条明路:与其让一个大模型硬扛,不如分工协作,用工具补短板。
当我们还在吐槽AI连Excel都搞不定的时候,SpreadsheetAgent已经悄悄解决了两个核心难题:怎么在不丢失信息的前提下处理大表格,怎么让AI看懂表格里的视觉信号。它不是一个完美的工具,但它的思路——让AI像人一样分工、用工具、反复核对——可能比它的性能更有价值。
复杂问题的最优解,从来不是一个超级个体,而是一群靠谱的合作者。 未来的AI办公助手,或许不会是一个无所不能的“超级大脑”,而是一个能协调各方、擅长找工具解决问题的“项目经理”。
点击充电,成为大圆镜下一个视频选题!