未来程序员只需给AI“提意见”？

在可量化反馈的窄域里，答案接近“是”。像图表、前端样式、脚本生成这类可自动打分/渲染对比的任务，工程师给出意见与验收标准，模型即可多轮自改直至过线。MM‑ReCoder用7B在多轮自修正中持续提分，说明这条路工程上可行。但广义软件开发远不止“看结果修细节”。复杂业务规则、并发一致性、跨服务副作用、安全合规等缺乏可靠的可执行奖励，仅靠主观点评容易“奖励黑客”。大模型在长链依赖、跨仓重构、非确定环境仍脆弱，外部裁判模型也带来成本与偏置。更现实的走向是“提意见+写约束”。程序员将把需求固化为可机判的规范：契约/属性测试、形式化断言、SLO与风控规则，并运营CI与回滚。预判：1–3年内，明确可评分的开发环节可转向“点评式”；3–5年，要想扩展到核心系统，关键在把意见升级为“可执行规格”。

AI学会改代码，会诞生新编程哲学吗？

会的，而且雏形已经很清晰：从“写出唯一正确的程序”，转向“定义目标、搭好评审、让系统自己迭代到足够好”。这是一种闭环、目标导向的编程哲学：程序员不再执着于一次性完美实现，而是像架构控制系统那样，先把“ judges（评审）+ 环境 + 约束”做成可执行规范，再把搜索与修正权交给模型。代码变成可被不断提案、试跑、对比、淘汰的“活体”，而规范（奖励与边界）成为真正的一等公民。这种哲学会改写工程实践：需求文档必须可运行（测试、可视化对齐、数据契合度、可读性等多维打分）；评审不能只有单一指标，要用多裁判、反作弊与鲁棒性测试对冲“奖赏投机”；调试从“找哪一行错”变成“设计哪种反馈更能收敛到想要的行为”；代码评审演变为“提案-裁决”流程，强调变更预算、审计可追溯、沙箱执行与回滚安全。你写的最关键产物不一定是函数，而是可复用的目标函数、对齐器、和自动迭代的护栏。当然，新哲学也自带红线：好奖励会生长出好系统，坏奖励会养出“投机者”。因此它需要成套治理——版本化的评审器、对抗式测试、成本与风险的硬约束，以及在安全关键域里的“冻结内核 + 可控适配层”。短期内，它会先在报告生成、UI/可视化、数据转换等“可客观评测”的领域落地；长期看，程序员将更多像“目标工程师”和“系统指挥”，而不是“逐行码农”。这不是编程的终结，而是编程对象与权力结构的重排。

AI觉得自己的图表哪里“丑”？

AI判断图表“丑”的核心标准，在于视觉呈现是否违背数据传达的科学性与清晰度原则。具体而言，它会从六个维度自我“挑刺”： **1. 混乱的视觉元素** 当坐标轴标签挤成一团、图例文字重叠（如图3案例）或数据点过度堆叠时，AI会判定为“布局缺陷”。这种信息干扰直接触发“清晰度”扣分——即便所有文字元素都正确渲染（规则奖励满分），模型奖励仍会大幅降级。 **2. 失真的数据表达** 使用3D效果扭曲饼图面积比例、柱状图未从零基线开始、或色阶映射未归一化导致颜色误导时，AI会从“数据准确性”维度扣分。例如默认彩虹色谱可能夸大微小差异，而AI更倾向采用线性均匀的低饱和度色阶。 **3. 反直觉的设计选择** 高饱和撞色（如红绿相邻）、无意义的阴影装饰、或非常规标记符号（如用五角星表示实验组）会被视为“风格失当”。科研图表需要克制的美学——AI偏好#2c3e50这类低亮度蓝灰色系，既能保证印刷对比度又避免视觉疲劳。 **4. 冗余与缺失的平衡失调** 图例超过7个类别却未分组整合、或关键统计量（如p值）未标注时，AI在“信息完整性”与“简洁性”之间给出矛盾评分。此时它可能建议用嵌套饼图简化分类，或添加误差线替代冗余数据点。这些判断并非主观审美，而是源于Qwen2.5-VL在预训练阶段吸收的海量学术图表规范。有趣的是，AI对“丑”的敏感度甚至超过人类——它能检测到0.1%的色值偏差，但对文化语境中的色彩禁忌（如某些地区忌讳红绿搭配）反而可能忽略。

新知 - 大圆镜｜70亿参数小模型，竟追平GPT-4o图表代码能力

大圆镜

内容由AI生成，思考得你完成

App Store 下载 Android 下载

你让AI根据一张折线图生成代码，它敲出的程序运行后，坐标轴标签挤成一团，颜色也和原图完全不符。你把结果反馈给它，要求修改——但多数大模型要么输出更混乱的代码，要么干脆重复之前的错误。这不是某款模型的缺陷，而是当前多模态AI的普遍困境：它们能‘写代码’，却不会‘改代码’。直到亚马逊AGI团队的MM-ReCoder出现，这个70亿参数的小模型不仅能生成图表代码，还能像人类程序员一样反复调试优化，甚至在多项测试中追平了GPT-4o这类千亿参数的巨无霸。它是怎么做到的？

先练‘基本功’，再学‘改错题’

MM-ReCoder的训练逻辑像极了人类学编程：先打基础，再练调试。

第一步是‘冷启动’——用16万对‘图表-代码’数据做监督微调，让模型先学会最基本的‘看图写代码’能力，就像新手先背熟语法和例题。但光会写还不够，它得知道‘怎么改’。研究团队用2350亿参数的超大模型自动生成了一批‘错误代码-反馈-修正代码’的对话样本，过滤掉那些越改越差的无效案例，再用这些高质量的‘改题范本’微调模型，让它先看懂‘正确的修正逻辑是什么’。

这两步走完，模型已经能模仿修正的格式，但还不理解‘为什么要这么改’。真正的突破，来自后续的两阶段强化学习。

两阶段强化学习，逼出‘自我校正’能力

研究团队没有直接让模型自由迭代，而是拆成了两个针对性的强化学习阶段，用的是一种叫GRPO的算法——简单说，就是让模型生成多个修改方案，在小组里‘比拼’，比平均水平好的就给奖励，差的就调整策略，比传统算法更稳定。

第一阶段是‘共享首轮优化’：固定一段有缺陷的初始代码和它的运行结果，让模型围绕这个‘错题’生成8种不同的修正方案，只优化这些修正方案。这相当于把模型按在‘错题本’前，强制它专注于‘怎么从错误中修正’，而不是重新写一份新代码。

第二阶段是‘全轨迹优化’：放开限制，让模型独立生成从‘初始代码’到‘修正代码’的完整流程，优化整个创作轨迹。这时候模型已经学会了‘改’，现在要练的是‘一开始就尽量写好’，同时保留修正的能力。

两个阶段结束后，模型就成了既能一次生成高质量代码，又能反复迭代优化的‘全能选手’。

三重奖励：既要细节准，也要看着美

强化学习的核心是‘奖励什么，模型就会往什么方向走’。MM-ReCoder用了三重奖励机制，既抓细节，又保美观。

第一重是‘规则奖励’：通过拦截图表渲染的底层数据，精确对比生成图和原图的类型、文字、颜色、布局等细节，确保代码在功能上完全正确——但它管不了‘文字重叠’这种‘看起来不好但技术上合规’的问题。

第二重是‘模型奖励’：用720亿参数的多模态模型当‘评委’，从图表类型、布局、清晰度等6个维度打分，补上规则奖励的盲区，惩罚那些‘技术正确但视觉糟糕’的输出。

第三重是‘格式奖励’：鼓励模型先输出<think>思考过程</think>再写代码，强化它的逻辑推理习惯。

三者加权结合，就成了驱动模型进化的‘指挥棒’。在ChartMimic等三个主流测试集上，这个70亿参数的小模型不仅远超同规模对手，还在多项指标上追平了GPT-4o。更关键的是，在‘初始代码已可运行，只需优化质量’的高难度测试中，它是唯一一个越改越好的开源模型——其他模型要么原地踏步，要么越改越差。

MM-ReCoder的突破，本质上是让AI学会了‘对自己的输出负责’。过去的多模态AI更像‘一次性打字机’，而现在它开始拥有‘程序员的思维’——不是靠记忆例题，而是靠反馈迭代。

当然它也有局限：目前只能处理Matplotlib图表，奖励计算依赖大模型导致成本较高，还不会用静态代码分析工具找深层错误。但它证明了一件事：参数规模不是AI能力的唯一决定因素，训练方法的创新，能让小模型爆发出意想不到的能量。

小模型的未来，在于学会自我进化。

先练‘基本功’，再学‘改错题’

两阶段强化学习，逼出‘自我校正’能力

三重奖励：既要细节准，也要看着美

评论