对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
GUI自动操控|命令行集成|软件AI化工具|源码自动分析|香港科技大学|AI智能体|人工智能
当你还在为AI没法直接操控Blender渲染3D模型、用LibreOffice导出PDF发愁时,香港科技大学的一个项目已经干成了一件离谱的事:上线4天GitHub星标破1.5万,用一条命令就能把任何有源码的软件,变成AI Agent能直接操控的工具。不用写API,不用搞脆弱的界面自动化,甚至不用你盯着——它会自己跑完从源码分析到生成安装包的全流程。这不是什么实验室概念,它已经搞定了16款主流软件,从视频剪辑的Shotcut到运维工具Jenkins,1839个测试全部100%通过。你或许会问:它到底是怎么把GUI软件的复杂功能,变成AI能看懂的指令的?
你可以把这个叫CLI-Anything的项目,想象成一个全自动的软件翻译官——它的核心是一套7阶段的流水线,把人类用的GUI软件,翻译成AI Agent能直接对话的命令行接口(CLI)。
第一步先做「源码体检」:它会扫描整个软件的代码仓库,把GUI上的按钮、菜单操作,一一映射到背后真正执行功能的后端接口——比如GIMP修图就对接GEGL/Script-Fu,Blender渲染就调用官方的bpy库,绝不是做个表面功夫的模拟。
接下来是「命令结构设计」:它会把软件的功能拆解成层级清晰的命令树,比如LibreOffice的「新建文档」「导出PDF」会变成libreoffice new和libreoffice export --format pdf这样的结构化指令,还会自动给每个命令加上参数校验和默认值。

之后的实现、测试、文档、打包全是自动完成:它会用Python Click库生成可执行的CLI工具,自动写出覆盖所有功能的测试用例,甚至连用户手册和安装包都一并做好。全程不需要你敲一行代码,只要等着收工就行。
最关键的是,它生成的CLI输出支持JSON格式——这对AI来说相当于拿到了结构化的说明书,不用再费劲解析模糊的自然语言,直接就能把结果喂给下一个任务。
你可能会好奇,为什么不直接给软件加个API,非要绕到命令行?答案藏在AI Agent的「天生属性」里。
AI本质是处理文本的专家,而CLI本身就是结构化的文本交互:输入是明确的命令和参数,输出是可解析的结果,完美契合AI的能力范围。相比之下,GUI自动化要靠识别屏幕像素、模拟点击,只要软件界面改个按钮位置,整个流程就彻底失效;而传统API不仅需要开发者手动编写,还经常存在功能覆盖不全、更新不及时的问题。
CLI还有两个让AI爱不释手的特性:一是自描述性,只要加个--help参数,就能输出完整的命令说明,AI可以自己「读手册」发现功能;二是可组合性,不同命令能像积木一样拼起来,比如AI可以先调用blender render生成图片,再用gimp edit修改,最后用libreoffice insert插入文档,全程自动完成跨软件的复杂任务。

当然,这一切也不是没有局限。它目前只能处理有源码的开源软件,闭源软件因为看不到底层接口还无法支持;而且生成的CLI依赖软件本身的后端能力,如果软件本身的接口设计混乱,最终的CLI体验也会打折扣。
CLI-Anything的README里写着一句话:「Today's Software Serves Humans. Tomorrow's Users will be Agents.」这不是一句空口号,而是正在发生的行业转向。
就在不久前,谷歌也开源了Google Workspace CLI,把Gmail、Drive、Calendar这些办公软件都变成了可被AI操控的工具。越来越多的公司开始意识到,未来软件的「用户」不再只是人类——AI Agent会成为更频繁的使用者,它们不需要漂亮的界面,只需要明确、稳定、可自动化的接口。
这种转向正在重构软件开发的逻辑:过去开发者要考虑的是「怎么让人类用得顺手」,未来还要加上「怎么让AI用得高效」。CLI-Anything的意义,就是跳过了手动改造的繁琐过程,用自动化的方式给传统软件打开了通向AI生态的大门。
但这也带来了新的问题:当AI可以自主操控软件时,如何保证它的操作符合安全规则?比如让AI操作Jenkins时,怎么防止它误删生产环境的任务?目前CLI-Anything还没有内置权限控制,这也是未来需要补上的关键一环。
当我们还在讨论AI能不能替代人类工作时,AI已经悄悄开始「接管」我们的工具了。CLI-Anything不是什么颠覆式的技术突破,它更像是一个精准的连接器——把已经成熟的软件生态,和正在爆发的AI Agent生态,用最适配的方式接在了一起。
未来的软件世界,或许会是这样一幅图景:人类只需要说出「帮我做一份带3D模型的产品报告」,AI Agent就会自动调用Blender建模、LibreOffice排版、Shotcut剪辑演示视频,全程不需要人类打开任何一个软件界面。

软件的用户,正在从人,变成AI。