AI实时生成软件，还需要App吗？

不会立刻“不要App”，但App的形态会被改造。实时生成把“功能发现—界面搭建—工作流编排”变成即时服务，用户从“点图标”转向“说意图”。操作系统会成“意图路由器”，而App更像“能力容器+数据金库+责任主体”，把API、权限、计费与审计打包给AI按需调用——稳定外壳，动态内核。为什么还需要App？合规与可靠性先卡住：医疗/金融要可验证版本、审计链与SLA，纯临时生成难过审。性能与成本也现实：实时交互要<200ms；云端推理每百万token约$2.5入/$12出，长会话轻松到数美元；高性能图形/游戏仍需本地编译。安全同样关键：临时代码必须跑在强沙箱（WASM/WASI、最小权限）。此外，完全流动的界面会增加认知负担，稳定的“可达成”入口仍有价值。可落地的路线是混合式：系统层做意图路由，App提供受信工具与数据，AI在其内拼装界面与流程；企业侧补上模型评测、策略与成本治理。等到边缘端推理、可验证推理与行业合规框架成熟，“无App时代”才可能真正到来。

砍掉Sora赌AGI，奥特曼赌对了吗？

从算力和单位经济学看，这刀大概率砍对了。高质视频推理是吞卡怪：一分钟往往要花到两位数美元，带宽与审查链路冗长，还踩版权与肖像权雷。留存和ARPU低。把同样的GPU投向推理/代码/代理，可直接转化为企业订阅与API收入，毛利更高、回款更快；若GPT‑6真在推理与Agent显著提速，边际价值远超多做几条“好看的视频”。可这仍是窗口期豪赌。弃视频等于放弃影像数据飞轮与创作者心智，谷歌、字节、Runway可能占住生态位；安全团队去中心化后，若代理出现越权或合规事故，代价会比Sora时代更大。且一旦AGI推进不及预期，被砍的边线短期也补不回来。成败看三点：未来6—12个月，OpenAI能否以更低延迟与成本夺回代码/自动化份额；企业续费与用时能否爬坡；以及推理成本曲线是否持续下行。三点齐备，他就赌对；反之，若视频在成本骤降+平台网络效应下爆发，这把断臂会变成沉没成本。

AI记住你一生，是帮手还是枷锁？

如果记忆真能贯穿你的一生，它最像一位“长期秘书”：不再重复问你偏好、流程、口味，能把零碎意图编织成连续计划，提前准备资料、自动衔接上下文，甚至在健康、财务、学习这类需要纵向跟踪的领域，给出基于多年轨迹的更稳妥建议。价值不在“更聪明”，而在把摩擦系数降到接近零，把时间还给你。但同一套记忆，一旦失控就会变成“画像枷锁”：画像外泄造成价格歧视与情感操控；错误记忆被模型固化，越用越偏；平台把“你的一生”当作锁客筹码，迁移困难；即便不含敏感字段，跨源拼接也能推断疾病、政治取向与人际网络。长期记忆的风险，不在数据量，而在叙事权被谁掌握。要把帮手留在你这边，关键是产品与个人双重“缰绳”：本地优先与端到端加密，记忆按主题细分、逐项授权，默认有时效自动遗忘；任何调用都留审计痕迹，可随时查看、编辑、撤回与打包迁移；敏感域（健康、财务、亲密关系）默认不记或仅离线记；定期“记忆体检”，纠正偏见与误记。让AI记得足够多，但始终记在你的规则里。

新知 - 大圆镜｜GPT-6押注AGI最后一公里：用统一架构看懂世界

Q: 砍掉Sora赌AGI，奥特曼赌对了吗？

从算力和单位经济学看，这刀大概率砍对了。高质视频推理是吞卡怪：一分钟往往要花到两位数美元，带宽与审查链路冗长，还踩版权与肖像权雷。留存和ARPU低。把同样的GPU投向推理/代码/代理，可直接转化为企业订阅与API收入，毛利更高、回款更快；若GPT‑6真在推理与Agent显著提速，边际价值远超多做几条“好看的视频”。 可这仍是窗口期豪赌。弃视频等于放弃影像数据飞轮与创作者心智，谷歌、字节、Runway可能占住生态位；安全团队去中心化后，若代理出现越权或合规事故，代价会比Sora时代更大。且一旦AGI推进不及预期，被砍的边线短期也补不回来。 成败看三点：未来6—12个月，OpenAI能否以更低延迟与成本夺回代码/自动化份额；企业续费与用时能否爬坡；以及推理成本曲线是否持续下行。三点齐备，他就赌对；反之，若视频在成本骤降+平台网络效应下爆发，这把断臂会变成沉没成本。

Q: AI记住你一生，是帮手还是枷锁？

如果记忆真能贯穿你的一生，它最像一位“长期秘书”：不再重复问你偏好、流程、口味，能把零碎意图编织成连续计划，提前准备资料、自动衔接上下文，甚至在健康、财务、学习这类需要纵向跟踪的领域，给出基于多年轨迹的更稳妥建议。价值不在“更聪明”，而在把摩擦系数降到接近零，把时间还给你。 但同一套记忆，一旦失控就会变成“画像枷锁”：画像外泄造成价格歧视与情感操控；错误记忆被模型固化，越用越偏；平台把“你的一生”当作锁客筹码，迁移困难；即便不含敏感字段，跨源拼接也能推断疾病、政治取向与人际网络。长期记忆的风险，不在数据量，而在叙事权被谁掌握。 要把帮手留在你这边，关键是产品与个人双重“缰绳”：本地优先与端到端加密，记忆按主题细分、逐项授权，默认有时效自动遗忘；任何调用都留审计痕迹，可随时查看、编辑、撤回与打包迁移；敏感域（健康、财务、亲密关系）默认不记或仅离线记；定期“记忆体检”，纠正偏见与误记。让AI记得足够多，但始终记在你的规则里。

大圆镜

内容由AI生成，思考得你完成

App Store 下载 Android 下载

从拼接走向原生：让AI像人一样感知世界

你可以把传统多模态AI理解成“组装电脑”——文本、图像、音频各有独立的“配件”，最后用连接线拼在一起。这种模式下，AI处理信息时总隔着一层，比如看图片时只能先转成文本描述，再交给语言模型理解，难免丢信息、慢半拍。 GPT-6的原生多模态架构更像“人脑”：所有模态信息从输入开始就被转换成统一的“神经信号”（token），塞进同一个Transformer模型里。视觉的像素、音频的波形、文本的词汇，在模型内部直接对话，不需要额外的翻译环节。就像你看电影时，画面、台词、背景音乐是同时钻进脑子里，自然融合成完整感受的。但真实的机制比这更精确：它用向量量化技术把图像拆成离散的视觉token，用神经编解码器把音频分成语义和声学两层token，再和文本token排成一串，让模型的注意力机制自由捕捉跨模态的关联。比如看到一张咖啡拉花图，它能同时“看见”奶泡的纹理、“读懂”拉花的图案含义，甚至“联想到”咖啡的香气——这是拼接式模型做不到的深度融合。

这种设计带来的直接效果是，在代码、推理、智能体任务上，GPT-6比前代性能暴涨40%。它不再是只会单一技能的工具，而是能同时处理多种信息的“通用感知器”。

200万Token：给AI装个“长期记忆”

如果说原生多模态是给AI配齐了所有感官，那200万Token的超大上下文窗口，就是给它装了个大容量硬盘。传统大模型的上下文窗口像个小记事本——GPT-4只能记住约8000个词，大概是一篇短篇故事的长度。你要是让它处理一本10万字的书，它只能分段读，读了后半段就忘了前半段；让它分析一整部电影的字幕，更是得切成几十段，根本没法理解完整的剧情逻辑。

200万Token是什么概念？大概是150万字，相当于一整套《哈利波特》的文本量，或者一部3小时电影的完整字幕加画面描述。GPT-6能一次性“读”完这些内容，并且记住里面的所有细节——比如你可以让它对比《哈利波特》全系列里邓布利多的性格变化，或者从一部电影里找出前后呼应的伏笔。这背后的关键技术是旋转位置编码（RoPE）的改进版。你可以把它理解成给每个Token贴了个带坐标的标签，不管序列多长，模型都能通过坐标计算出Token之间的相对位置，不会因为内容太长就“迷路”。而且它用了稀疏注意力机制，只重点关注相关的Token，不用把所有信息都算一遍，既省算力又保证了效率。更重要的是，这种“长期记忆”让AI能胜任复杂的长任务：比如一次性重构整个代码库的逻辑，或者全程跟踪一个持续数天的项目对话，不用反复交代背景。这是从“对话工具”转向“智能助理”的核心一步。

孤注一掷的背后：算力与风险的平衡

OpenAI的孤注一掷，本质上是一场算力的豪赌。为了训练GPT-6，他们动用了超过10万台NVIDIA H100和GB200加速器，单训练集群的功耗就相当于一个中型城市的电力需求。砍掉Sora等项目，就是为了把算力集中在最核心的突破上。

但这种集中也暗藏风险。原生多模态带来的“模态不平衡”问题还没完全解决——文本数据的语义密度远高于图像和音频，模型可能会不自觉地依赖文本，弱化视觉和音频的理解能力。就像一个人听别人描述风景，总不如自己亲眼所见那么准确。超大上下文窗口也带来了新的安全挑战：更长的输入意味着更多被攻击的可能，比如恶意用户可以在长文本里藏“越狱”指令，绕过模型的安全防护。而且处理200万Token的计算成本是巨大的，目前的定价虽然只比前代略高，但长期来看，如何平衡性能和成本，是商业化必须解决的问题。更值得注意的是，OpenAI把安全团队划归到首席风险官旗下，暂时放缓了安全研发的节奏。这种“先突破再补安全”的策略，无疑是在走钢丝——AGI的“最后一公里”，也是风险最集中的一公里。

当GPT-6把文本、图像、音频、视频揉进同一个模型，当它能记住一整套《哈利波特》的细节，它已经不是在模仿人类的某一项技能，而是在逼近人类认知世界的方式——用多感官接收信息，用长期记忆关联逻辑。但AGI的“最后一公里”，从来不是技术的终点，而是人与机器关系的新起点。我们要的从来不是一个无所不能的工具，而是一个能和我们顺畅协作的伙伴。 感知世界的方式，决定智能的边界。 当AI终于能像人一样“看、听、记、想”，接下来要回答的，就是我们想和这样的AI一起，创造一个什么样的未来。

从拼接走向原生：让AI像人一样感知世界

200万Token：给AI装个“长期记忆”

孤注一掷的背后：算力与风险的平衡

评论