AI能拯救濒危语言，还是会加速语言的同质化？

一门语言的消失，不是一本字典合上，而是一种看世界的方式悄然熄灯。如今，AI像一把双刃剑：它能让濒危语言重获“数字生命”，也可能把万语千言压成单调的一种腔调。关键在于，我们把这把剑交给谁，怎么用。先看“拯救”的一面。AI把过去难以规模化的语言保护工作变成了可复制的工程：自动转录把口述传统落到文字，少样本学习让极少数据也能启动模型，跨模态技术把手势、图像、口音一起纳入语料，手机端应用让村口录音就能变成可检索的语料。现实中，全球约7000种语言里，至少四成处于某种濒危状态，平均每两周就有一种语言消失，而真正顺利“跨入数字世界”的语言不足十分之一。AI能把这道闸提起来——前提是工程与社区共同发力。印度最近的实践给了一个可借鉴的范式。面向22种法定语言与12种文字体系的开源模型，通过更“会说本地话”的分词器降低“词—符号”开销，让印地语、泰米尔语、奥里亚语乃至罗马化输入都能更高效编码；评测不仅看母语书写，还纳入日常常见的“拉丁字母写本地话”，以对齐真实使用场景；在大规模训练里为多语种分配足量预算，并在监督与强化学习阶段加入工具使用、长链推理和安全规约。这些细节听上去“工程味”十足，却决定了边缘语言能否被模型“认真聆听”。更重要的是，权重以宽松许可开源、推理栈在中端GPU与个人设备上也能高效运行，让“在地部署、在地治理”成为可能，而不是把语言命运外包给遥远的数据中心。但AI也确实会“同质化”。训练数据偏向强势语言，模型就学会主流腔调；生成式系统追逐平均偏好，文风容易收敛为一种“流畅却相似”的模板；过度标准化会抹平方言、语域与礼貌等级的精细差别。现实里，主流AI文案在同主题上的结构重合度极高，不少系统仍主要依赖旧时段的公开网络数据，叠加算法对“最常见用法”的强化，弱势表达更难被“看见”。甚至在高风险场景中，翻译与文化误读会带来切身代价，这不是抽象担忧。决定命运的，是设计哲学。若我们只追“平均正确率”，AI会把语言修剪成标准化的盆景；若我们把“多样性”写进系统，结果会很不一样。方法并不神秘：让母语者参与数据采集与标注，保留方言与口音而非清洗掉；在分词与评测中同时支持本地文字与常见的罗马化写法；把“流利度、用词得体、风格匹配、语域选择”纳入评价而不是只看答不答对；把工具做轻、做离线、做可控，让学校、乡镇、文化机构能自己运行与微调；在授权与知识归属上尊重社区，明确“谁的数据、谁做主”。当这些成为默认，AI的放大器就会放大多样性，而不是把它压低到一条曲线下。想象一条可操作的路径：学生用手机采访祖辈，自动转写初稿、社区校订迭代；本地服务器或笔记本即可跑起开源模型，持续小步微调；词典、口述史、对照语料与教学素材同步沉淀成可检索的公共库；评价环节邀请说话人判断“像不像我们”，而非只测机器分数。稀疏专家与高效分词带来的低算力门槛，正是这条路走得长久的保障。那么，AI会拯救，还是同质化？答案从来不在技术本身，而在价值取向。语言不是信息通道，而是记忆、礼仪、幽默与世界观的集合。AI像一面镜子，也是一只扩音器：若镜前只有少数声音，它会越照越单一；若我们让更多社群站到光里，它就能把多样性放大到下一代人的日常。问题不该是“AI能不能”，而应是“我们愿不愿意、敢不敢”把技术的控制权交还给语言的主人。当社区、工程与教育在同一张桌上，AI就不再是替代者，而是守护者，帮每一种独特的表达，在数字时代继续发声。

当AI老师比真人更会“因材施教”，我们的孩子还需要上学吗？

想象一位“永不下线”的老师：能用你的母语、方言甚至口语体实时交流，秒懂你哪里没会，给出恰到好处的提示，还能根据你的节奏动态出题、即时评测、给出代码可运行的反馈。这样的AI老师不是科幻——像Sarvam 105B/30B这类最新的推理与代理型模型，已经在数学、编程和多语种对话中展现出接近专家级的个性化辅导能力，甚至在JEE题目上用“导师模式”循循善诱地引导学生自己走到答案。可问题来了：当AI因材施教做得比很多人类老师还细致，孩子还需要上学吗？答案并非“要么要、要么不要”，而是“需要，但学校的角色要升级”。 AI确实在“个别化”上掌握了新边界。强推理模型在数学与编程上给出可验证的结论，能把错误定位到具体步骤；多轮对话中，它能根据学生当下表现调整难度与路径，相当于把“动态评估”嵌入学习过程。更重要的是，多语种与更高效的分词与推理，让母语环境下的高质量讲解真正可达。这意味着每个孩子都可能拥有一位懂他、等他、推他一把的“专属导师”。但学习不只发生在大脑，也发生在彼此之间。学校提供的是关系智能的操练场：同伴协作、冲突调解、领导与被领导、失败后的重来；是价值与文化的浸润场：何为公平、如何与差异共处；也是实践的发生场：项目制学习、实验室、运动与艺术。全球多国的教育政策也在提醒我们：AI是助教而非替代者；教育领域的AI被视为高风险，需要透明与审慎；已有近四成国家限制校园内手机使用，以守住注意力与社交的底线。更别忘了数字鸿沟与隐私风险——如果只把“上学”换成“上网”，弱势群体可能被抛得更远。更现实的是，AI在许多学校的落地仍停留在演示层，缺乏统一的成效评估标准；过度依赖会钝化批判性思维与独立解决问题的能力。青少年的情绪与心智发展也需要“真关系”的支撑——陪伴、运动、睡眠与主动求助，这些是任何模型都无法替代的成长肌理。因此，更好的提问是：有了AI，学校应该变成什么？答案正在浮现——课堂从“讲授间”转向“创造场、展览场、社交场、运动场”。老师从知识搬运者转为学习设计者与引导师，掌握AI素养与数据素养，把批改、诊断、个别反馈交给AI，把探究、讨论、跨学科项目留在真实的共同体中。孩子在家里用AI做自适应练习、获得苏格拉底式追问；在学校里与伙伴做作品、打磨论证、现场辩驳与协作迭代。AI是显微镜，放大思考的细节；学校是生态圈，孕育意义与关系。给家长的一句攻略：拥抱AI的“因材施教”，也要守住“因人而爱”。帮孩子学会向AI要“思路”不只是“答案”，要“证据链”不只是“结论”；同时把时间留给同伴、运动与创作，把隐私与边界讲清楚，把注意力还给真实的生活。当AI把“会学”这件事做到极致，学校更要把“为何而学、与谁共学、在世界中学”做深做透。也许未来最好的学校，不是没有AI的学校，而是懂得与AI共舞、却始终把人放在舞台中央的学校。最终，我们想培养的，不仅是能答对题的孩子，而是能提出好问题、愿意与人同行、并敢于创造新世界的人。

AI模型越大越强？印度为何用更少数据训练出更强的AI？

“模型越大越强”就像“排队越长饭越好吃”的直觉结论，常常对，却不总对。印度团队用更少的数据与更低的活跃算力，做出了在数学、编程与多语种上足以叫板更大模型的系统——Sarvam 30B 与 Sarvam 105B。它们不是凭运气，而是把算法、数据、架构与系统工程一层层叠好，让“质量与效率”取代了“蛮力堆料”。先看成绩单，再谈秘诀。Sarvam 105B在Math500拿到98.6，在LiveCodeBench v6达71.7，MMLU 90.6、MMLU Pro 81.7，AIME 25的Pass@1为88.3（接上工具可到96.7），长链任务Tau2为68.3，并在BrowseComp等“代理式”任务中表现强劲；在印度语言评测里，它在各维度平均胜率约90%，STEM/数学/编码场景约84%。更小的Sarvam 30B只有约2.4B“活跃参数”，却在LiveCodeBench v6达到70.0，HumanEval 92.1、MBPP 92.7、MMLU 85.1、MMLU Pro 80.0，并在BrowseComp与Tau2上保持稳健。两款模型分别已在生产中支撑对话平台Samvaad与助手产品Indus。为什么“用更少数据，做更强AI”能成立？关键在“更有用的每一个Token”。Sarvam并非盲目堆数据：30B用16T token、105B用12T token（对比一些同类模型动辄超14T甚至更高），但训练配方优先质量与难度分布——自研大规模合成数据，覆盖代码、知识、数学与多语场景；精挑细选高难指令与多样域分布，补齐公开数据里“简单、同质、低质”的缺口；引入来自模拟环境与真实仓库的“代理轨迹”，让模型学会多步推理、工具调用与环境交互。这种“难度对齐+能力定向”的配比，让每一次更新都更有信息增益。强化学习阶段更像外科手术。它基于可验证奖励（正确性、执行结果）与结构化评分（格式、依从性、质量）混合驱动，用信息增益度量做“背包式”分配，把固定生成预算优先投入在“恰好卡在能力边界”的题目上；异步GRPO架构解耦生成、评估与更新，限制轨迹陈旧度以稳态收敛；摒弃对参考模型的KL约束，采用组相对目标避免“拉扯式优化冲突”。这套课表与目标函数设计，直接把“用多少数据”转化为“在最值当的地方用数据”。架构同样在“少算得巧”。两款模型都采用Mixture-of-Experts（MoE）骨干，128专家稀疏路由让参数规模上去、单Token计算不跟着暴涨；30B用GQA缩小KV缓存，105B上升到更深网络并引入MLA（多头潜变量注意力）压缩长上下文的内存开销。训练时用Sigmoid路由比分布式Softmax更好地均衡专家负载，并引入专家偏置稳定路由；经验显示105B在早期就越过30B的基线，说明“有效扩展”不仅是堆层数，更是让每层的计算都花在刀刃上。别忽视“看不见的提效器”——分词器与系统工程。Sarvam为22种印度语言与12种文字优化了分词，显著降低词汇“生育率”（每词平均token数），等价于同一段话需要更少token来表达；这既省训练预算，也降推理成本。推理端对30B进行了架构感知的融合算子、先进调度与“前填充-解码”解耦服务：在H100上同等SLA实现约3–6倍吞吐提升，在L40S上有约1.5–3倍增益，Apple Silicon上MXFP4推理提速约20–40%。当高效分词与高效内核叠加，Indic场景端到端性能增益最高可放大到一个数量级。结果是：更低活跃算力，更高单位算力产出。还有生态与目标的“靶向化”。两款模型在印度本土、依托IndiaAI任务平台完成全栈训练，开源权重与API共建“主权AI”基础设施，安全微调覆盖通用与印度特有风险谱系，并经针对性红队对抗增强鲁棒性。这种“为谁而训、为啥而训”的清晰边界，使得投入更直接转化为在数学、编程与多语言等关键场景的实打实表现。当然，MoE也不是免费午餐。推理时虽只激活少量专家，但所有专家权重要常驻内存，部署需要良好的并行与内存管理；在某些工程基准（如SWE-Bench Verified）上，不同模型依然各有胜场。可贵的是，Sarvam展示了一条“用算法与工程对冲算力”的清晰路线图。回到那个老问题：越大越强吗？规模重要，但不是唯一答案。当数据更干净、课程更聪明、路由更均衡、分词更贴合、系统更高效，弱水三千，取一瓢亦可惊人。也许下一代值得追问的不是“还能大多少”，而是“怎样让每一分训练与每一个token，都更有尊严地成为智能的增量”。这比“大”，更强。

印度开源AI是“免费午餐”吗？普通人用它会遇到什么坑？

“免费午餐”的味道常常很香，但真正吃下去，你会发现盐是你的、碗是你的、洗碗也是你的。开源AI在印度正迅速崛起：像Sarvam 30B与Sarvam 105B这样的模型把权重放出来、接口开放、还专门为22种印度语言优化 tokenizer，看上去仿佛人人都能零门槛拥抱最前沿。但对普通人而言，它更像一张“自助餐券”——选择多、潜力大，却需要你自己会挑、会搭配、会埋单。先说“香”的部分。印度团队做了几件很硬的事：把Mixture-of-Experts用在推理主战场，30B只激活约2.4B参数就能跑出接近更大模型的表现；105B把长上下文做到实用级，推理、编程、代理式工具使用在一系列基准上有亮眼分数。更关键的是，它们的Indic tokenizer显著降低了多语种分词“肥沃度”，在本土语言尤其是低资源语种上、更省token、更省钱。推理链路也下了苦功：从H100到L40S，再到本地Mac的MXFP4，调度、融合内核、KV缓存都做了工程化打磨，30B在边缘设备上也能更顺滑。开源许可走的是商业友好的路线，意味着你真能拿去做产品，而不只是“玩玩”。再看“隐形账单”。开源不等于零成本，免费使用的云服务也不等于零代价。你会遇到几类典型“坑”。一个是数据与隐私的错觉。很多人把“开源”误解为“在本地、安全不外泄”。事实上，绝大多数人用的是第三方界面或API，提示词和文件可能被日志化、被运维可见，甚至因配置不当被陌生IP访问。对普通用户，简单的守则是：别上传敏感数据；真要定制，用离线或私有化部署；用沙箱跑代码与爬网的代理流程，限制外联和写盘权限。另一个是性能账。MoE的“稀疏”让每步计算更省，但显存占用、KV缓存、长上下文带来的内存与时延依旧要算。量化能降门槛，却可能牺牲推理稳定性和数学精度；长上下文并不保证“长记忆”，没有检索增强，塞10万字进去多半是贵且没必要。对钱包有感知的做法是：用RAG而不是盲目加大上下文，优先选对Indic友好的tokenizer，控制输出长度与并发，设定每次工具调用与浏览的硬预算。然后是可靠性和安全边界。强推理模型也会一本正经地“胡说八道”，尤其在多轮、多语、罗马化输入混杂时更容易出错。普通人用它写代码、查资料、算题，最容易栽在“看起来很对”的错上。实践上，重要结论二次核验；数字与单位强制显式计算；让模型给出依据、再让它自检一次，错误率会肉眼可见地下去。至于“越狱”与提示注入，连大型机构都会中招，更别说个人用户——把系统提示与工具密钥隔离、避免把外部网页原样塞进上下文，是基本操作。还有生态与可持续性。开源权重是一回事，好用的推理栈、社区文档、SFT/RL范式复现是另一回事。MoE的微调对新手不友好，路由塌陷、专家不均衡、LoRA怎么挂到专家层，都是门槛。很多“国家级模型”名头响，但下载与维护热度不足，出现“今天能跑、明天没人管”的现实落差。你要做应用，就要为评测、回归、监控与版本治理预留精力，不然一轮升级就把你的提示词工程全打散。最后别忘了“免费的馅”。印度市场近来充满各种“限时免费”的大模型服务与联名套餐，它们降低了试用门槛，也在悄悄培养依赖。真正的价格，往往体现在你的数据黏性、团队技能路径以及未来的迁移成本。越早建立自己的数据治理与可替代架构，越不怕哪天涨价或关停。如果你是普通用户，又想把“自助餐”吃得明白，可以从三件小事开始：用具备Indic优化与安全对齐的数据侧模型处理本地语言任务；把任何“重要决策”前置到双重验证流程；为自己的AI使用设定“红线”与“限额”，像给信用卡设上日限额一样理性。真正的福利，不是短期的免费，而是你在使用中积累的判断力与可迁移的能力栈。开源AI不是免费的馅饼，它更像一座公共图书馆：入场不收钱，读什么、怎么读、读完能不能转化为你的洞见与创造，决定了它的价值。当越来越多的印度模型把能力与效率带到你手边，值得自问的是——我愿不愿意为“自主与可控”付一点学习与治理的代价？工具终将便宜，昂贵的，始终是我们的注意力与选择权。

AI也会有“文化偏见”吗？印度AI的价值观会是什么样？

想象一面会说话的镜子：你用印地语问它教育公平，它热情谈社区学校；换成泰米尔语，它开始聊公立医疗；切回英语，它又引了几篇西方论文。AI并非中立，它会“学”到我们社会里那些看得见和看不见的偏见——语言、性别、阶层、地域，都会悄悄写进参数里。这不是科幻，这是今天就能测量到的现实。为什么AI会有文化偏见？因为模型从人类数据里学习，而数据从不纯净。训练语料英语占优，低资源语言稀缺，标注者有主观判断，甚至评测用的“裁判模型”也带着各自的世界观。结果就会出现熟悉的失真：把“医生”默认成男性、把“护士”默认成女性；给某些人群推荐更低收入社区的房源；生成“印度男性”形象时频繁加上头巾。多语场景更复杂：同一概念在不同脚本、不同口语习惯下表述，模型若缺少覆盖，就容易误解、过度泛化甚至贴标签。要化解偏见，既要技术，也要价值观。技术上，覆盖与对齐缺一不可：补齐低资源语言与多脚本数据，设计能公平编码的分词器，建立可验证、可红队的对齐训练，配合多维评测与责任追踪。价值观上，开发者必须回答一个根本问题：当不同文化的“正确”不一致时，模型应该怎么做？这正是印度AI正在给出的回答。以Sarvam AI为例，他们开源了MoE架构的Sarvam-30B与Sarvam-105B，强调“主权栈”与端到端自研：从数据到训练、从分词到推理，围绕印度真实使用场景优化。最显眼的价值选择，是语言平权：分词器针对22种法定语言与12种脚本优化，连印度人常用的“罗马化拼写”也纳入评测；模型在印度语言基准上显著领先，还专门做了本土风险场景的安全对齐与自动化红队。技术路线同样透露“普惠”取向：30B把实时部署与边缘设备体验放在心上，105B在长上下文与复杂推理上发力，但两者都强调高效推理与更低服务成本。这些并非冷冰冰的指标，它们背后是一条清晰的价值脉络：让不同语言、不同设备、不同收入的人，都能用得上、用得好。治理层面，印度也在勾勒“印度式AI价值观”的边框。治理指引提出以信任、以人为本、公平公正、问责、可理解与安全韧性为核心，强调“先不伤害”的原则与“轻触式监管”的创新鼓励。数据保护法引入同意管理与影响评估，深伪治理把恶意意图定为红线，高风险场景走前置审查，其他场景让自我评估与事后问责并行。与此同时，国家层面用算力池、数据平台与资助计划去降低门槛，把“可用”与“可负担”放到与“可控”同等重要的位置。这种“政府作推动者”的姿态，延续了数字公共基础设施的传统：先把路修好、把规则讲清，再让生态自己跑起来。当然，挑战不容忽视。算力仍多依赖进口，高质量本土数据的治理与共享需要更细的规则，顶尖人才供给与留存要时间积累；即便在印度语料丰富的条件下，评测里的“裁判偏见”也可能放大或掩盖模型的真实能力。开源并不自动等于无偏，强大的推理能力也不自动等于公平。偏见治理会是一场“永续工程”。那么，“印度AI的价值观会是什么样”？如果把技术选择与政策脉络拼在一起，会看到几条清晰的线索。它是多元而不单一的，尊重印度内部的语言与文化差异，也追求在全球叙事中的平等发声；它是普惠而非昂贵的，把算力、数据与模型当作公共资源去民主化；它是主权与开放并重的，自主可控又拥抱开源协作；它是安全与创新并跑的，通过分级治理与本土化对齐，让“安全”的定义贴近印度社会的真实风险。更重要的，它把AI看成发展工具：为教育、医疗、金融与政务服务兜底，而不是只在炫技的天花板上打转。也许我们更该把AI视作“镜子+罗盘”。镜子提醒我们：不直面人类的偏见，就得不到中立的模型；罗盘提示我们：价值选择会改变技术的去向。当一个国家用多语言的语料去训练、用普惠的目标去优化、用负责任的规则去约束时，它塑造的就不只是模型，还有社会对“智能”的期待。下一个问题，便落在你我身上：我们愿意把怎样的世界，教给会学习的机器？当答案足够清晰，模型也会学会倾听。

“从零构建”还是“站在巨人肩上”？如何看待印度AI的自主性？

把一座大模型想象成一枚火箭：你可以自己打造发动机、燃料泵和导航系统，但你仍然遵循牛顿定律、使用全球通用的合金和标准件。所谓“从零构建”和“站在巨人肩上”，并不是非黑即白，而是自主能力在不同层级上的取舍与叠加。Sarvam AI 刚发布的 30B 与 105B，正是一个观察印度 AI 自主性的生动样本。这两款模型的技术主线很清晰：以稀疏 MoE 为骨架，做高性价比的推理。30B 走 GQA 路线降低 KV 开销，105B 引入 MLA 压缩注意力以支撑更长上下文；都是 128 专家但容量与路由配置有差异。训练规模并不小，30B 用了约 16T token，105B 约 12T token，覆盖代码、数学、多语种与合成数据，且路由采用 sigmoid 计分并加专家偏置，缓解负载失衡。对齐阶段用了大规模 SFT 与带信息增益调度的 GRPO 式强化学习，删去了常见的 KL 约束，配合结构化奖励，强调“思维链正确、工具用得对、答案简洁”。这些点，体现了对训练细节的“硬控”。更有意思的是“端到端”优化的力度。它们不只是在算子上做了融合与重排，更把调度、prefill/decoding 解耦、词表并行等组合成完整的推理栈，在 H100、L40S 乃至 Apple Silicon 上都追求稳定的吞吐/时延曲线；配合针对 22 种印度法定语言、12 套文字脚本优化的分词器，在真实 Indic 生成任务上的单位成本显著下降。指标也不虚：105B 在 Math500 达到 98.6，AIME25 Pass@1 88.3（配工具 96.7），MMLU 90.6，在 BrowseComp、Tau2 这类“长程代理”场景里也有亮眼表现；30B 则以仅 2.4B 活跃参数跑出 LiveCodeBench v6 70.0、MMLU 85.1、AIME25 80.0（配工具 96.7），更强调“能上生产”的实时性。两者都在印度语言评测上夺冠，甚至覆盖到常见的“拉丁化拼写”用法，这不是简单参数堆砌能给的红利。这份“自主”的含金量，主要体现在三个层面。其一，训练与对齐全流程在本土执行，数据配方、路由策略、RL 课程与采样都由团队掌控，可追溯、可复用、可扩展。其二，推理与分词栈不是“拿来即用”，而是围绕 Indic 长文本、多脚本输入、低延迟多并发去重写与调优，能直接转化为生产成本与体验优势。其三，开源权重与许可带来的可运营自由度，叠加已经落地的产品线（Samvaad、Indus），把“可测的模型能力”转成“可用的产业能力”。但自主不是孤岛。在科学与工程的地基上，Sarvam 显然也“站在了巨人肩上”：Transformer 与 MoE 的公开知识体系，CUDA 与厂商库的生态支持，甚至在印度语言评测中使用他家大模型生成英文参考答案与充当判官，这些都说明现代 AI 的全球协作属性依旧强韧。硬件上仍依赖高端 GPU 供应链；算力来自 IndiaAI 使命的国家级池化；更广阔的生态里，也存在被质疑“二次开发”的国产模型、国家级模型下载不振的尴尬、以及企业项目高比例止步 PoC 的现实。少于 300 名顶尖 AI 研究者、风投口径偏紧、数据中心与能源约束，都在提醒我们：所谓“主权栈”，目前更像是一座正在浇筑中的大坝。把镜头拉远，印度的变量同样扎实：约 7000 家 AI 初创、其中 200 多家聚焦生成式；全球约 20% 的 AI 从业者与超高的技能渗透；语音 AI 与多语场景的长期积累；DPI 体系与 1037.1 亿卢比规模化的国家投入、3.8 万枚 GPU 的算力池、分布在全国的实验室网络。这些是真实的地基，决定“能否跑起来”，而非仅仅“能否造出来”。因此，答案并不需要非此即彼。Sarvam 展示的是一种渐进式自主：在模型与推理的关键环节“自造、可控、可复用”，在科学发现与芯片供给上“拥抱全球、取其所长”。这恰恰是当下最务实、也最可持续的路径。接下来更关键的，是把评测与安全规范本土化到位，减少对外部闭源评审环节的路径依赖；把能源友好的大规模推理基础设施建起来；把长期研究与人才梯队补齐；把产业侧从“PoC 困局”拉向“可持续现金流”的真实场景中，尤其是农业、医疗、教育与中小企业数字化这些“高社会收益、强本地性”的战场。技术自主更像是一条地平线，而不是一堵围墙。真正有生命力的自主，是在开放中掌握关键环节、在协作里塑造比较优势。当你能用自己的分词器、在自己的推理栈上，为十几种文字脚本的人群提供可靠服务时，你就已经在重塑“巨人肩膀”的形状了。下一个十年，印度需要回答的也许不是“要不要从零”，而是“在哪些层面必须从零、在哪些层面该叠更高的梯子”——而 Sarvam 的今天，正是那把梯子的第一批坚固横档。

新知 - 大圆镜｜印度AI用MoE打破大模型性能效率悖论

对抗知识焦虑，从看懂这条开始

App 下载

把大模型拆成“专家团队”干活

你可以把传统大模型想象成一个什么都懂但什么都不精的全才，处理每一个问题都要动用全部脑子；而MoE（混合专家）架构，则是把这个全才拆成了上百个“专科医生”——每个“专家”只专攻某一类任务，比如有的擅长处理数学推理，有的专门搞定印度语言的语义，还有的对代码生成得心应手。

当一个输入token进来时，模型会通过一个“路由器”判断这个问题该找哪几个专家处理，其他没被选中的专家就全程“摸鱼”，不参与计算。比如Sarvam 105B模型有128个专家，但每个token只会激活其中的9个，实际参与计算的参数只有总规模的8.5%。这种“稀疏激活”的魔法，让模型能在保持千亿级参数性能的同时，把推理计算量降到和百亿级密集模型差不多的水平。

和传统密集模型比，MoE的优势是碾压性的：同等计算预算下，MoE模型的参数规模能做到密集模型的10倍以上，数据利用效率提升16.4%，训练时梯度噪声更小，收敛速度更快。Sarvam 105B在AIME数学推理测试中拿到88.3分，用工具辅助后更是冲到96.7分，直接超越了参数规模是它6倍的DeepSeek R1模型。

从训练到推理的全栈效率革命

当然，MoE架构不是凭空就能跑起来的，它的高效背后是一整套从训练到推理的优化手段。

首先是训练阶段的“负载均衡”难题——如果路由器总是偏爱某几个专家，其他专家就会因为没活干而“饿死”，模型性能会大打折扣。Sarvam团队用了两个办法解决这个问题：一是用Sigmoid路由替代传统的Softmax路由，消除专家之间的竞争关系，让每个专家都能均匀分到任务；二是给路由器加了个“专家偏置项”，自动调整每个专家的激活概率，不需要额外的辅助损失就能实现负载均衡。在模拟数据测试中，Sigmoid路由的收敛速度是Softmax的3倍多，Voronoi损失的下降速度快了近4倍。

到了推理阶段，优化的重点是解决动态路由带来的计算不均匀和显存瓶颈。Sarvam团队用了“融合内核”技术，把专家计算的多步操作合并成单个高效内核，减少内存访问和调度开销；还设计了“分离式流水线”，把路由、专家计算和结果组合等步骤并行处理，让GPU的利用率拉满。这些优化让Sarvam 30B模型在H100 GPU上的推理吞吐率比Qwen3基线高3到6倍，在MacBook上也能实现20%到40%的性能提升。

最值得一提的是他们自研的Tokenizer，针对印度22种官方语言优化后，低资源语言的token分割率比主流Tokenizer降低了30%以上，直接减少了推理时的计算负担——毕竟处理的token越少，成本就越低。

不是炫技，是真的能落地

MoE架构的价值，最终要体现在实际应用里。Sarvam的两个模型已经在印度的多个场景中跑了起来：30B模型支撑的Samvaad对话平台，每天处理超过1亿次多语言交互，延迟低于500毫秒；105B模型驱动的Indus AI助手，能处理从JEE考试解题到企业财务分析的复杂任务，甚至能帮用户生成完整的Pokédex网页代码。

我认为，Sarvam的成功最值得关注的不是技术本身，而是它找到了大模型在新兴市场的落地路径——用MoE架构解决性能和成本的矛盾，用本地化的数据集和Tokenizer满足多语言需求，用开源的模式撬动本土AI生态。这和国际大厂靠烧钱堆参数的路子完全不同，它证明了大模型不是只有“越大越好”一条路，“足够好且足够便宜”才是更普适的选择。

当然，MoE也不是完美的，它的训练复杂度更高，显存占用也比同规模的密集模型大，路由策略的调优更是个技术活。但从Sarvam的实践来看，这些问题都是可以通过工程优化解决的——毕竟，能真正落地的技术，才是好技术。

当我们还在为大模型的参数竞赛津津乐道时，Sarvam已经用MoE架构悄悄打开了另一扇门。它告诉我们，大模型的未来不是比谁的参数更多，而是比谁能在性能和效率之间找到最精妙的平衡。

“用专家的精准，替代全才的冗余”，这不仅是MoE架构的核心逻辑，也是AI走向普惠的必经之路。当AI不再是少数大厂的奢侈品，而是能在印度的街头、企业的办公室甚至普通人的笔记本上随时待命时，我们才真正迎来了AI的黄金时代。毕竟，技术的终极价值，从来不是突破极限，而是服务于人。

把大模型拆成“专家团队”干活

从训练到推理的全栈效率革命

不是炫技，是真的能落地

评论