数据库也能玩“时空穿越”？

能。靠的是不可变层+快照的组合拳：每次提交都会产出一组“密封层”并写一条快照元数据（存在PostgreSQL），对象存储里旧层从不改写。读者携带快照ID进来，DuckDB 的扩展把它绑定到扫描算子；网关再把计划切成本地/远端两段，并用同一快照固定两边的表扫描，桥接只传中间结果。于是你能在任何历史时点，跨机复现同一查询。这和传统MVCC不同：MVCC保证事务一致性，却常被清理而不保留久远历史；快照时间旅行依赖保留策略。代价是存储与写放大，需要分层合并与垃圾回收、按时间/版本的生命周期管理，并警惕“提交时间”与“事件时间”混淆。好处是审计、回溯缺陷、可重复实验与一键回滚都变得可靠。说白了，“时空穿越”不是魔法，是快照、不可变日志和严格版本治理的工程化结果。

笔记本会沦为“云键盘”吗？

不会。混合执行让笔记本从“云键盘”升级为“智能边缘节点”。交互分析最怕延迟与带宽瓶颈：本地SSD≈3GB/s，而家宽常见100–500Mbps（12–62MB/s），跨区RTT动辄50–100ms；再叠加云出网≈$0.09/GB，纯云端回传中间结果既慢又贵。未来更像分工协作：云端扫海量冷数据、长批任务；本地持小表/缓存、可视化与最后一跳JOIN/过滤，并用NPU做轻量推理（如今30–45TOPS，7B–13B已可离线）。计划分裂会按网络成本与选择性下推算子，只回传经聚合/过滤后的列式批量（几十MB级），本地继续拼接与交互。结果是“云加速，本地掌控”，而非空壳键盘。

一道菜两地炒，数据如何不“串味”？

不串味的关键是“同锅底”。每次混合执行都会钉住一个一致性快照：远端读对象存储里的密封层（按快照ID），本地用DuckDB的事务快照，网关把快照信息随同一份逻辑计划一起下发。因为写入是单一路径、层是不可变的，多读者并发也都在同一版数据上做菜。其次是“同配方同火候”。拆分的是一份计划，边界选在语义可交换、可并行的算子处；跨端只过中间结果，用Arrow批次承载精确schema、字典、时区与排序标签。网关/worker用query_id与batch_seq做去重与乱序控制，背压维持顺序；遇到UDF或不兼容算子则收敛为单端执行，保证口味统一。最后去除“异味源”。非确定性表达式（如RAND、NOW）先在一侧求值并广播为常量，避免两地各出一味；DuckDB版本与会话参数形成指纹随计划固定，期间的模式变更必须生成新快照，否则拒绝混跑。这三道关一起把“两地炒”端成一盘菜。

新知 - 大圆镜｜本地云端无缝联动，OpenDuck重构云数据库体验

对抗知识焦虑，从看懂这条开始

App 下载

一半本地一半云，查询自己找最优路线

你可以把混合执行架构想象成一个聪明的快递分拣员：收到一个跨本地和云端的查询请求后，它会先拆开看——哪些数据在本地电脑里，哪些在云端对象存储里，哪些计算适合用本地CPU，哪些得靠云端的大内存。比如统计用户消费习惯，它会让本地电脑扫描小体量的用户表，同时让云端服务器处理千万级的交易表，最后只把两边筛选后的结果传回来做关联。

具体到技术上，OpenDuck的Rust网关会先把查询计划拆成一个个小算子，给每个算子打上「本地」或「远程」的标签，再在中间插入桥接算子负责数据传输。整个过程对用户完全透明，你敲的SQL和操作本地数据库没有任何区别，但背后已经完成了一次跨设备的协同计算。

这种设计最直接的好处是省成本——不用把几十GB的数据来回传输，网络带宽和云端算力都能省出一大截。有公司试过，把原来8小时的财务数据处理管道压缩到了8分钟，效率翻了60倍。

像堆乐高一样存数据，快照秒级生成

如果说混合执行是OpenDuck的「大脑」，那差分存储就是它的「仓库」。传统数据库改数据是直接原地修改，就像在一本书里涂涂改改，想找回昨天的版本得费劲翻备份。但OpenDuck的差分存储是「只加不改」：每次写入数据都像堆一块新的乐高积木，删除数据只是插个「已删除」的标记，永远不会动之前的积木。

这些「乐高积木」就是存在对象存储里的不可变密封层，配合PostgreSQL风格的元数据管理，DuckDB客户端看起来就是一个普通文件，但背后已经实现了快照功能。你要恢复到昨天的数据状态，不用复制任何实际数据，只是切换一下元数据的指针，一秒就能完成。

这种设计天然适合多并发读取——几百个人同时查数据，各自拿自己的快照，互相不会干扰。而且因为数据只追加不修改，不会产生碎片，存储效率也比传统数据库高得多。

不是万能药，它有自己的舒适区

当然，OpenDuck也不是能解决所有问题的万能药。它天生是为分析型查询（OLAP）设计的，比如统计报表、用户行为分析这种需要扫描大量数据的场景，但如果是高并发的交易型业务（OLTP）——比如电商平台的实时下单，它的表现就不如传统的PostgreSQL或MySQL。

它的分布式能力也有局限：虽然能跨本地和云端协同，但本质还是基于单节点DuckDB的扩展，面对PB级别的超大规模数据，或者需要跨地域分布式计算的场景，还是得靠Snowflake、ClickHouse这类专门的分布式数据仓库。

还有一点需要注意，目前它的事务支持还不够完善，复杂的多表写入操作可能会有一致性风险，适合以读为主、写操作相对简单的场景。

过去十年，云数据库的发展一直在往「大而全」走：更大的集群、更复杂的分布式协议、更昂贵的算力套餐。但OpenDuck反其道而行之，它把注意力拉回了开发者本身——能不能让云数据库像本地数据库一样好用？能不能用最少的成本完成复杂的分析？

它不是要取代那些成熟的分布式数据仓库，而是给了市场一个新的选项：一种轻量、灵活、开放的云原生数据库形态，让开发者不用再在本地和云端之间做艰难的取舍。

本地与云端的边界，本就不该存在。

一半本地一半云，查询自己找最优路线

像堆乐高一样存数据，快照秒级生成

不是万能药，它有自己的舒适区

评论