对抗知识焦虑,从看懂这条开始
App 下载对抗知识焦虑,从看懂这条开始
App 下载
钉钉文档|动作语言|系统能力接口|图形用户界面|命令行界面|AI智能体|人工智能
你有没有过这种经历:想给钉钉文档扩容,却在层层嵌套的图形界面里迷路,翻遍设置也找不到入口?2026年的今天,这个问题有了新解法——不用再点按钮,敲一行命令就能搞定。更奇怪的是,不止钉钉,飞书、GitHub这些平台都在集体转向这种“复古”的操作方式。曾被GUI(图形用户界面)挤到角落的CLI(命令行界面),正借着AI Agent的东风重新成为核心。这背后不是怀旧,而是一场系统能力接口的革命:当执行者从人类变成AI,我们需要的不再是好看的按钮,而是能让机器精准理解的动作语言。
GUI的本质是给人类看的——用图标、菜单和弹窗把复杂功能包装成“指哪打哪”的直观操作。但对AI Agent来说,这种包装反而成了障碍:它得先“看”懂界面布局,识别按钮位置,再模拟点击,稍有界面更新就会失效。

CLI则完全不同。它把系统能力拆解成一个个标准化的“动作单元”:一条命令对应一个明确操作,参数定义动作边界,输出就是执行结果。比如查询钉钉文档空间使用量,CLI只需要一行:dingtalk doc-space usage --output json,返回的是机器能直接解析的结构化数据,没有多余的视觉信息干扰。
这种特性刚好踩中了AI Agent的需求:它天生需要可组合、可文本化、可脚本化的接口。就像程序员写代码一样,AI能把多个CLI命令串成复杂工作流——先查使用量,再查套餐权限,最后发起升级申请,全程不需要人类介入。
很多人把CLI和MCP(模型上下文协议)当成竞争对手,其实它们各司其职。MCP解决的是“接入问题”——让AI能统一连接不同工具和数据源,适合企业级的权限管理和多系统协调;而CLI解决的是“执行问题”——把系统能力变成具体可调用的动作,是AI真正动手做事的“手脚”。

更关键的中间层是Skills。它就像AI的“操作手册”,把复杂任务拆解成CLI命令的执行序列。比如处理文档空间满额的问题,Skills会明确步骤:先调用dingtalk doc-space usage确认情况,再用dingtalk doc-space permission-check验证权限,最后根据结果选择升级或发起审批。
这种三层架构的优势在token效率上体现得淋漓尽致。MCP需要预先加载所有工具的schema,一次调用可能消耗数万token;而CLI只需要在执行时传递命令文本,单次交互仅需几百token,能让AI把更多算力用在推理上。有测试显示,完成同一任务,CLI的token消耗是MCP的1/35。
CLI的灵活性也伴随着风险。如果给AI开放了无限制的CLI权限,就像把系统的root权限交给了一个只会按指令做事的助手——一旦生成错误命令,后果不堪设想。比如误执行rm -rf /,可能直接清空整个系统。
行业已经在探索应对方案。一种是“白名单+权限最小化”:只允许AI调用预定义的安全命令,敏感操作必须经过多因素认证;另一种是“干运行+人工确认”:AI先执行--dry-run预览操作结果,经人类确认后再真正执行。
钉钉的改造就加入了权限分叉机制:当AI检测到用户没有升级权限时,会自动触发审批流程,而不是直接报错。这种“懂变通”的能力,让CLI在安全和效率之间找到了平衡。
CLI的逆袭,本质上是系统能力接口的“用户换位”——从服务人类转向服务AI。它不是要取代GUI,而是和GUI、MCP一起形成新的分工:GUI负责人类的直观交互,MCP负责工具的统一接入,CLI负责AI的精准执行。
未来的软件界面会越来越像一个“智能操作台”:人类用自然语言下达指令,AI通过CLI调度系统能力,最后用GUI反馈结果。我们不必再为找按钮而烦恼,也不必担心AI会“看不懂”复杂功能。
人机协作的核心,是让每个角色用最顺手的方式做事。