开放数据每年省百亿，但整理成本谁来买单？

把数据想象成城市里的自来水：人人都能用、越用越值钱。FAIR原则让科研数据“可发现、可访问、可互操作、可重用”，据测算，不按FAIR做，每年会造成上百亿规模的损失——仅欧盟层面就有人估算，直接损失超百亿欧元、间接损失更大。可是真正把“原水”变成“可饮用”的过程——整理、清洗、标注、编目、授权——是一张看不见的大账单。那么，省下的巨额红利谁来买单？答案不是某一个口袋，而是一套可持续的分账机制。公共资助该为“底座”埋单。自G20背书FAIR以来，国际与各国资助方普遍要求项目提交数据管理计划，把数据整理的人工、工具、存储、长期保存写进预算，并将公开可重复、可再利用作为验收要件。这不是“额外负担”，而是把科研的可验证性、可复用性视作研究本体的一部分。我国最近也明确推动公共财政资助形成的内容依法合规开放，并在“人工智能+”行动中强调高质量数据集建设，把数据供给作为基础设施来建设。机构与基础设施需要“托底”。数据管家短缺、学科间差异大，是落实FAIR的现实门槛。高校与研究机构设立专职数据管家岗位，加入学科数据仓储联盟，按会员或项目制共同投入，保障仓储运行、元数据标准、DOI发放与长期保存。国家层面正在做“以量带质”的供给侧改革——高质量数据集建设持续推进，累计交易额已达数十亿元、总规模数百PB，说明公共投入正撬动市场化供给，逐步摊薄单位数据的整理成本。受益的市场主体理应“买服务”。可信数据空间提供了一种更清晰的结算框架：以“信任、价值、治理、合规”为底层规则，公共数据开放可实行政府指导价的运营服务费，遵循“补偿成本、合理盈利”的原则；跨域融合场景里，按价值贡献进行成本补偿与收益分成。首批试点已覆盖32个行业、900多个新场景，实操层面的成本与收益分担机制正在形成。这意味着，用数据搞创新的企业，不再“白吃自助”，而是为清洗、脱敏、许可、审计等增值服务付费，最终把成本计入产品与服务的边际改进里。创新型企业需要“早期扶持”。对初创与中小团队，整理成本往往是能不能起步的关键。各地探索“数据券、算法券”，为合规取数、清洗标注、隐私计算等买单，配合“沙盒监管”降低试错成本，让“先做出样板、再完善规则”成为可能。等到模型与产品进入规模化阶段，再通过数据空间的分润与服务费回流公共与基础设施投入，闭环就建立起来了。学术生态要给“非现金回报”。数据集有DOI，数据论文可发表，引用与复用被计入评价，才有人愿意把“脏活累活”做到位。像Frontiers等出版方推进数据论文与验证流程，OpenAIRE等非营利组织建设联邦化开放基础设施，这些都是把看不见的劳动显性化、可计量化，从而让整理成本得到职业性回报的关键拼图。法律与治理应处理好“边界弹性”。在大模型训练等数据使用场景里，权利人分散、交易成本高、训练不可见，容易出现市场失灵。此时可引入有条件的合理使用框架：在不实质损害权利人激励、又能显著提升社会福利的前提下，允许受限使用，并辅以透明化备案、用途限制与收益回馈机制。配合“延迟发布”“模块化开放”等策略，既保留商业敏感期，也保障公共积累。别忘了技术也是“降本神器”。AI驱动的智能清洗、自动标注、元数据抽取正在把整理成本从“按人头计时”变为“按算力计价”；CLEAR原则与FDO等做法提升了人机共读、跨库互联的效率，直接降低数据摩擦。空间数据基础设施与全球协作框架把标准、接口、治理打通，让数据能跨行业、跨地域复用，一次整理、多次增值。所以，开放数据省下的“百亿”，不该靠谁独自买单，而是“公共兜底、机构共建、市场付费、创新扶持、信用回报、技术降本”的组合拳。就像修一条高速：国家出路基，地方铺路面，企业交过路费，沿线产业共享繁荣。当我们问“谁来买单”的时候，也在回答“我们想要怎样的知识社会”。把数据当作公共产品去治理，让受益者合理分担，让贡献者按价值回报，最终买单的，是一个更高效、更公平、更可持续的创新系统。省下的不只是钱，更是人类理解世界的时间。

当科学数据只为AI“书写”，人类会变笨吗？

把望远镜交给机器人，天上的星座就不再属于我们了吗？当科学数据越来越“面向机器书写”——结构化、标准化、可被算法直接吞吐——许多人担心，人类的思考会被一点点外包，最终“变笨”。这个担心并非空穴来风：多项实验显示，长期依赖生成式AI会诱发“元认知懒惰”，脑电证据揭示执行与语义网络活动显著下降，超过八成用AI代笔的人甚至难以复述刚产出的核心论点。如果科学数据与科研流程只服务于模型，而不服务于人，风险确实在积累。但把因果倒置同样危险。变笨不是数据“机器可读”的必然结果，而是我们如何设计与使用AI系统的选择。科学共同体已有两套重要“护栏”：FAIR原则让数据可发现、可访问、可互操作、可复用，G20早在2016年就背书；而新近提出的CLEAR理念则把人重新请回中心，让知识不仅能被机器计算，更能被人理解——强调认知互操作、语义链接、语境可探索、直观可达与人类可读可解释。两者合流，意味着数据既要“喂饱模型”，又要“点亮大脑”。现实阻力不小。欧洲开放科学网络指出，落实FAIR受制于基础设施缺口、激励不足与数据管家稀缺，且不同国家与学科差异巨大；商业平台的封闭策略还可能背离开放科学初衷。解决之道并非让数据“更晦涩”，而是补齐软硬件与制度短板：以开放许可与DOI保障引用与溯源，以数据期刊和数据管理计划规范发布与复用，以透明的同行评议、可追溯的“学术信用链”记录从数据到代码的全程贡献。当数据对人类研究者更可读、更可验证，AI的增益才不会吞噬人的判断力。 “AI让人变笨”的证据提醒我们要改变交互方式，而非拒绝工具。在教育与科研场景中，把AI置于“人—机协作”的位子，效果立竿见影：有教师引导的AI辅学在短短六周显著提升学习效果；而在科研工作台上，引入“创造性摩擦”的系统——强制核验、多观点对照、结构化提问——能把自动化从“思维替代”转为“思维增幅”。建立“AI缓冲带”：先独立给出假设，再用AI检索与推演；当答案与既有观念吻合时，刻意做一次“对抗性生成”，让模型提出相反证据；把AI产出当作初稿而非结论。这些都是让我们成为“AI驾驭者”、而非“AI乘客”的日常工法。从数据治理看，我们还需要面向人的叙事层：在机器可读的元数据之外，同步发布可读的实验背景、假设脉络与不确定性标注；在高风险领域内置校验提醒，明确“何处必须人工复核”；以模块化与延迟发布平衡开放与商业利益，避免把科研流程外包给少数闭源黑箱。别忘了，数据质量本身就是科研质量的前提，劣质数据喂给再强的大模型，也只会放大偏见与幻觉。所以，当科学数据“更像是写给AI看”时，人会不会变笨？如果我们把判断、记忆、质疑与创造通通下放，答案可能是会；但如果我们用FAIR+CLEAR把数据变成人机共读的知识基座，用制度与设计把AI从“代脑”调回“助脑”，答案就会截然不同。工具会塑造我们，而我们也在书写工具。让科学继续成为人与机器的对话，而非单向度的自动化流水线；让好奇心与价值观仍是那只指北的罗盘。毕竟，真正决定人类是否“变笨”的，从来不是数据写给谁看，而是我们愿不愿意继续亲自思考。

如果科研数据能上市交易，下一个“股神”是谁？

想象一下，开盘钟声响起，交易所屏幕上滚动的不是钢铁、芯片或REITs，而是“银河系巡天图像1000万帧”“城市车路云协同流量1.2亿条”“IVD检测设备全生命周期数据3000台套”。当科研数据成为可定价、可做市、可证券化的“新资产”，谁会成为下一个“股神”？答案恐怕不再是某位天赋异禀的个人，而是一类复合型“数据做市人”。真正的赢家，首先看得见“好数据”。高质量数据的供给并不均衡：国家电网、三大运营商、中国海油、中国船舶等握有“高精尖”底座，顶尖高校与科研院所填补基础数据空白，民营企业则以“小而精”紧扣产业场景。我们已经看到了雏形：全国首个奶酪检验检测高质量数据集在交易所挂牌，670万条智慧停车数据完成定价交易，南京“车路云一体化”数据资产入表并挂牌流通。这类人能在数据密林里分辨“长青资产”和“快消资产”，理解频率、稀缺性、可替代性与场景映射，从而布局先手。其次，他们把“合规”做成核心竞争力。FAIR原则让数据可发现、可获取、可互操作、可重用；CLEAR原则把人类可读、语义可解释拉回中心；可信数据空间把合规流通从概念推向落地，覆盖20余省区、32个行业，形成“数据供给—场景共创—生态培育—规则保障—技术支撑—运营驱动”的5+1闭环。在跨境与医疗等高敏领域，合规就是估值倍数：有企业在《个保法》框架下完成27项备案，还拿到东南亚多国的跨境资质，数据的商业半径随之跃迁。当“长臂管辖”与隐私红线日益复杂，能把合规内生化的人，就能把折价变溢价。第三，他们会定价、会证券化、会造流动性。数据资产ABS正从零到一：从“鑫欣数据资产1期”的AAA与低利率，到百行跨域的多元入池；从上交所水务ABS引入数据赋能，到产业园区知识产权ABS叠加数据增信；长三角路演中心把“看不见”的数据价值变成可交易的曲线。优秀的做市人懂得数据的“价值易变性”和“时效衰减”，会用分层、分片、延迟发布与权益拆分管理久期与风险，用指数化与基准化方法打造“数据蓝筹”。第四，他们用AI做风控，而不是被AI牵着走。银行业已把大模型用在知识检索、反欺诈、反洗钱与财报解析，但也在严控幻觉与可解释性。成熟的团队会把FAIR风险量化模型与C-FADR约束框架引入数据交易，做压力测试、异常联动、在险价值度量，将信息安全从“合规驱动”转为“价值驱动”。在ISO/IEC 42001规范兴起、信息安全支出持续增长的大背景下，能把AI治理做成“可证伪、可审计、可追责”的人，才配得上“长期主义”。第五，他们是“场景共创者”。数据的终局不在仓库，而在应用。AI4S把科研与产业打通：从新材料、发酵工艺到药物发现，数据越开放、越标准、越可信，创新的边际成本越低。中国的“车路云一体化”用路侧传感器与云端调度突破单车视野，既带来安全性提升，也产出可交易的时空数据资产。开放科学也强调可重复性与验证性，有时通过数据模块化与延迟开放，就能在商业与共享之间找到平衡点。把这些能力装进一个人或一个团队，会看到几类最有机会成为“数据市场股神”的原型：以国有关键基础设施数据为底座、联合高校和产业伙伴的公共事业型做市联盟；以严格合规见长、可跨境运营的医疗与生命科学数据运营商；懂证券化与做市的“科创金融桥梁”，把数据ABS做成可持续产品线；以及能够在城市级打造“可信数据空间”的运营团队，让公共数据授权运营像水电一样稳定惠及产业。它们已经在路上：浙江的公共数据授权，深圳—北京—贵阳的数据交易互认，浦东的全域车路云试点，南京的实时交通数据入表，乃至AAA级的首批数据ABS。至于“人名”，其实并不重要。真正的“股神”，是能把FAIR与CLEAR落地，把可信数据空间运营通关，把“可验证的真相”转化为“可计量的现金流”的那一群跨学科合伙人。他们既像量化基金经理，又像产业运营商，更像开放科学的“数据管家”，在科学与资本之间搭建可持续的桥。当数据成为文明的记忆与产业的燃料，投资数据，实质是在投资我们验证真理与创造新知的能力。下一个“股神”，不会只问这份数据的年化回报，还会问：它是否提升了社会的可重复性与可信度？如果复利的不只是收益，还有科学的可证伪精神，那才是值得长期持有的“伟大资产”。你愿意押注哪一种“数据未来”？

发论文还是发数据，哪个更能评上教授？

在评教授的赛道上，是“文章至上”，还是“数据为王”？学术界的“通用货币”正在改写：当一份被广泛复用的数据集能引来全球研究者的二次创新与千倍放大，它就不再是论文的“附件”，而是可独立计价、可直接被引用的“学术资产”。问题不在二选一，而在于你如何把论文与数据组合成一张更有说服力的“学术名片”。现实层面，许多高校的晋升规则仍把高质量论文、科研项目与学术影响作为硬指标，特别是在“非升即走”的环境中，代表作的质量与领域贡献依然关键。不过，全球与国内的评价风向正在转变：G20在2016年背书FAIR原则，强调数据可发现、可获取、可互操作、可复用；DORA与“莱顿宣言”反对以期刊影响因子替代论文质量；国内治理文件把“保存原始数据、保证真实性完整性”写入刚性要求，并将学术诚信纳入职称与岗位聘任考核。换言之，数据的规范公开正在从“加分项”走向“底座项”。从学术回报看，数据公开不是吃亏。给数据集赋予DOI、发布“数据论文”，已被众多一流期刊与平台认可，数据集获得的引用与下载可计入学术影响，且常常为后续论文带来更高的可验证性与引用回流。欧盟报告甚至估算，不按FAIR原则做数据开放，每年会造成超过百亿欧元的直接损失与更大的间接损失。在AI、地球科学、生物医学等领域，谁掌握了被社区公认的“基准数据”，谁就有资格定义问题、引领范式，这种“基础设施型贡献”常常比多几篇边际论文更能成为外审专家与同行信函中的强力背书。从学术生态看，数据公开还是“护城河”。在医疗与生命科学等高撤稿风险领域，公开原始数据、元数据与分析流程能显著降低质疑，提升可信度；对个人而言，这既是防止学术不端的保护网，也是建立学术声誉的加速器。越来越多的基金与期刊要求提交数据管理计划、明确许可与合规路径，研究数据不再是“项目结束后的私产”，而是“共同知识的起点”。从政策契合度看，数据发表更“懂时代”。国家层面的“人工智能+”行动提出到2027年要在重点领域深度融合，开放协作体系完善；多地把成果转化、开放共享与场景应用写入考核与奖励。你主导的数据集若能够转化为行业标准、公共服务或与企业共建的应用场景，不仅能带来真实世界影响力，还能在职称外的“第二增长曲线”（技术转移、奖项、社会服务）上加分。那么，想评上教授，最佳策略是什么？不是“只发论文”或“只发数据”，而是打造“论文—数据—软件—场景”四位一体的代表性成果组合。用2—3篇高质量论文讲清核心科学发现，用1—2个高价值FAIR数据集与配套代码支撑可复用与可验证，用开放许可证和完备元数据提升再利用，用真实的复用证据、被纳入基准/标准、跨机构合作与应用案例证明社会影响。在材料呈现上，把数据的学术价值“指标化”：DOI引用量、下载量、二次论文清单、被纳入的社区基准、政策与产业采纳证据、外部专家评价，一目了然地进入评审者的视野。具体落地有几个关键细节：为数据设计数据管理计划与合规路径，清晰的授权许可与隐私/伦理审查；用权威仓储与标准化元数据提升“可发现性”；必要时采用模块化或延迟发布策略，平衡商业合作与开放科学；把数据论文投向重视可复用与验证的刊物；在晋升材料中，明确数据对领域范式、后续研究与人才培养的乘数效应，而不只是“附带素材”。回到你的问题：发论文还是发数据，哪个更能评上教授？短期内，在多数机构与学科，论文仍是“门票”，但决定你能否“出圈”的，往往是数据与开放带来的可验证性、可复用性与跨界影响。长期看，谁能把高水平论文与高价值数据耦合成学术基础设施，谁就更像一位教授——不仅产出知识，更建设平台，赋能他人，让知识生长。当你把“成果”从一次性发表，升级为可被世界持续使用的公共物品，你的学术身份也在悄然升级：从解题者，变为出题者与生态的共建者。评教授，不只是评你做了多少，而是评你让多少人因此做成了更多。

数据“裸捐”后，我的成果会被别人抢走吗？

把数据放到阳光下，会长出更多知识，还是被别人“摘桃子”？这几乎是每个研究者走到开放科学门口时都会问的灵魂之问。好消息是：开放并不等于“裸捐”，更不是把你的多年心血拱手相让。真正按照FAIR原则去做的数据开放，是可发现、可访问、可互操作、可重用，更重要的是——有边界、有时间戳、有署名、有规则。先厘清风险与收益。所谓“被抢走”，本质是优先权与可归属性的问题。将数据存入可信数据仓储、获取DOI、绑定ORCID并公开元数据，其实是在“锁定时间戳”，为你的优先权上保险。越来越多期刊和资助方要求数据引用，数据本身被视为一类独立学术成果，能带来可观的引用与合作机会。反过来，长期把数据关在抽屉里，不仅复现困难、错失跨学科叠加的可能，还会产生巨大的社会成本——有评估显示，不按FAIR原则共享，每年造成的经济损失以数十亿计。开放不是风险的起点，而是信用与影响力的放大器。当然，开放需要“护城河”。最实用的几道防线，你可以立刻用起来： - 锁定优先权。将数据存入权威仓储，生成DOI与校验哈希，写明“如何引用”，并发布数据论文或预印本，构建一条清晰的证据链。多数期刊已认可预印本与数据时间戳的“新颖性保护”。 - 写好许可不“裸奔”。担心被不署名使用，就用要求署名的许可（如CC BY或数据库的ODC‑BY）；希望衍生也回馈社区，可选“共享相同”（如ODbL）。非商用限制看似稳妥，但“什么是商业”常有歧义，谨慎权衡。 - 设定节奏不“裸放”。先公开元数据与方法，数据设置合规的“可见—可取用”分级与合理的embargo窗口；对有商业合作的项目，采用“模块化发布/延迟发布”，先共享低风险子集或合成数据，核心集在主文发表后解锁。 - 该管就管的“可控开放”。涉隐私或敏感信息的，走控制访问与数据使用协议路径，做严格脱敏并保留同意凭证；遵循医学与伦理规范，避免将未发表稿件或敏感数据输入公开AI系统，防止无意外泄与“机器放大”风险。 - 降低“数据摩擦”。充足的元数据、代码本、变量字典与可复用脚本，是保护你的同时也提高复用门槛的“软防线”。用语义清晰、可溯源的结构化描述（如遵循更人本的CLEAR思路），别人更容易正确用，也更容易正确引用。 - 留痕与维权。多数仓储提供使用与下载指标；发现未按许可引用或越权复用，及时联系作者与期刊，必要时走机构与出版伦理渠道。现在的出版方越发重视数据引用合规，违规者会被问责。你可能还担心“我还没发主文就开数据，会不会被抢做主分析？”现实中的高发场景，往往来自团队内部协调不清。把数据管理计划写在前面，把作者顺序、通讯作者与分析窗口期写进协作协议，谁先做什么、何时释放什么，说清楚，冲突就少。若你的研究设计允许，注册报告能让“问题与方法”先被期刊锁定评审，减少新颖性焦虑。别忽视AI时代的新变量。对未发表材料，避免上传到公开大模型；采用本地/私域工具处理敏感数据，保留审计记录；发布合成或脱敏版本时，给出清晰的适用边界与不当用途警示。透明与审慎，是AI助力而非添乱的关键。最后，给你一个“开放者的心态坐标”。科学的竞争是马拉松，不是抢答题。数据开放像是在赛道两侧点灯：照亮他人，也照亮自己。你用时间戳、许可与元数据守住优先权，用embargo与分级开放把握节奏，用数据论文与规范引用把贡献写进学术履历。真正的“被抢走”往往发生在不透明、不规划、不留痕的情境里。把规则建立起来，把证据链铺好，把合作网络织密——你不会失去成果，相反，你在创造一种更大范围的“共赢”：让知识滚雪球，也让你的名字被雪一直“裹住”。当我们敢于在秩序中开放，在边界中共享，问题就变成了一个更宏阔的命题：你愿意把数据当作一次性消耗的附属品，还是当作能够持续生长、被世界记住的学术资产？答案，也许决定了你与未来的距离。

地理数据能帮农民致富，你的专业数据呢？

一颗甜到心里的草莓，背后是一整张“看不见的地图”：经纬度、土壤酸碱、日照曲线、虫情监测和冷链轨迹。正是这些地理数据，让农民把经验变成精确，把好产品变成好生意。那你的专业数据呢？别小看它，它同样能长出“可见的价值”。在农业，开放与可用的数据已经在创造真实的增收故事。围绕地理标志构建的数据协同，把政府、企业与消费者联结在一起，带动多省农产品品牌化、标准化，让果园从“靠经验”走向“看数据”。智慧果园用北斗巡航割草、自动化喷药、环境感知与作物模型联动，单园人效翻倍，质控更稳，优品率更高。某些地理标志产业集群年产值过百亿，“小粒咖啡”出口多国、千万元级收益，说明数据不是“报表摆设”，而是“现金流引擎”。跨出农田，几乎所有行业的数据都能变现，只是路径不同。学术界的经验很直白：带有唯一标识的数据集更易被检索和引用，实打实提升学术影响与合作机会；有研究表明，给数据赋予可追溯标识能显著提高后续复用率。反过来，数据“找不到、拿不到、用不顺、重用难”，会形成“数据摩擦”，转化成本直线上升。欧洲层面的测算早就提示：不按可发现、可访问、可互操作和可重用的原则去管理数据，每年会造成巨额的直接和间接损失。专家们也一再提醒，障碍并非技术一项，还包括基础设施不均衡、激励不足和数据管家的缺位。要让你的专业数据像地理数据那样“生财有术”，关键是把数据从“副产品”变成“可用资产”。这需要一次从源头到落地的设计。想象你手头的那些材料：实验原始记录、传感器时序、代码与参数、质控日志、领域本体、业务标签、用户反馈。把它们整理为可被发现和引用的“数据对象”，写清元数据、数据字典与代码本，给足可理解的上下文。越是“人可读、机可用”，越容易走得远。很多团队开始把知识组织成语义单元，既照顾机器互操作，也贴合人的理解路径，知识图谱因而更“有手感”。可用不等于“裸奔开放”。你完全可以采用模块化与延迟发布的策略：把敏感或商业核心的数据与可公开部分分层管理，对公共部分选用开放许可，对合作部分通过契约或可信数据空间实现“可用且可控”。越来越多行业在试点可信数据空间，共建“信任为基础、价值为激励、治理为基准、合规为保障”的规则，让跨主体的数据能安全流动、按贡献分配。与此同时，数据的权属、使用与经营正在被更清晰地框定，数据也开始被纳入企业资产管理，这为你的数据资产化与融资提供了制度地基。当数据具备了“FAIR”特征，人工智能就能把它的价值“放大”。增强分析让不会写SQL的人也能从数据里拿到洞见；面向科研与产业的“人工智能+”行动，正在把模型、算力、开源生态与场景联通起来。这意味着你的数据不只支持一篇论文或一次项目，它还能成为行业基准集、挑战赛题、API服务、可视化仪表板，甚至成为“数据即产品”的订阅式业务。很多企业在应用中试基地里，把跨企业的数据用于共性难题攻关，沉淀统一的数据规范与模型能力，显著降低创新门槛，孵化出新方案与新公司。你或许会问：我现在就能做些什么？不妨从“三个一”开始。用一天时间画出“数据地图”，标注来源、质量、敏感性与潜在用户；用一周时间补齐元数据与文档，建立最小可用数据集与基线模型，申请可引用的标识；用一个月时间打通一个真实用例，哪怕只是一个小小的API或仪表板，把早期使用者的反馈采回模型与数据治理流程里。当第一次有人愿意为你的数据或数据驱动的服务付费、引用、复用或与之共建时，飞轮就开始转动了。别忘了激励与认可能“点石成金”。数据论文、引用统计、下载与复用指标、合作转化金额，都能成为个人与团队的绩效凭证。很多资助与评审正在把数据管理与开放作为硬指标，做得好不仅利他，更利己。担心“被白嫖”？透明的许可、清晰的署名与合理的延迟共享，配合可信空间的计量与分配机制，能让价值回到贡献者手中。地理数据帮农民把好果子卖出好价钱，你的专业数据也能把知识变成影响力，把影响力变成新产品、新合作与新资本。数据从来不是冷冰冰的文件，而是人与人、机构与机构之间的“可信承诺”。当你愿意让数据在规则中流动，它就会像水一样，为更多的土地带去生长的可能。想想看，五年后的你，愿意被怎样的数据资产所定义？答案，今天就可以开始书写。

用你的隐私数据换一种新药，你愿意吗？

想象一下：也许破解胰腺癌这道世界级难题的关键，就藏在你体检单上一串看似平凡的数字里。五年生存率只有13%的疾病、罕见病孩子等待的“那一针”、新药研发迫切需要的真实世界数据——当“你的隐私数据”与“别人乃至你未来的生机”被放在同一架天平上，你会如何选择？数据的力量正在改变药物研发的速度与方向。自从各国在2016年拥抱“FAIR”原则（可发现、可访问、可互操作、可重用），开放科学的基础设施、数据存储库、DOI索引与数据论文不断成熟。欧盟评估，不按FAIR原则共享科研数据每年造成约102亿欧元直接损失和160亿欧元间接损失，这意味着许多潜在的新药、疗法和指南，可能就卡在“数据不通”上。真实世界证据的涌入使临床试验更贴近人群、多中心协作更高效，像杜氏肌营养不良症这样高未满足需求的领域，也更有机会在更短时间看到像伐莫洛龙这样的新选择。但犹豫不无道理。在中国，医疗数据安全事件仍在攀升，2023年同比增长达37%。AI模型可能“记住”训练数据，带来隐私外泄与版权风险。好消息是，技术路径在进步：差分隐私让模型“健忘”，还能在隐私预算、算力与数据规模之间找到可量化的平衡，新一代隐私增强模型在性能上已逐步逼近非隐私模型。再结合“可信数据空间”，在“数据不出域”的前提下以技术+规则完成跨机构计算与价值融合，可追溯、可审计、可问责的共享方式正成为现实。愿不愿意，关键不在“绝对安全”（没有任何系统能做到），而在“可控与可追责”。法律也给出了边界与抓手：医疗健康信息属于敏感个人信息，处理必须合法、正当、必要；应坚持最小必要原则，分级分类保护；电子病历调阅要有双重认证与授权；数据跨境要合规评审；医疗机构必须把安全责任延伸到供应链，并保留完整审计轨迹。连信息化项目都被要求将≥5%的预算用于网络安全，足见制度层面正把“信任成本”前置化。如果你要说“可以”，请把“可以”的条件说清楚。问清楚数据会被谁使用、用来解决什么问题、保存多久、如何加密与脱敏、是否采用差分隐私或联邦/数据空间等“数据不出域”的方案；明确你能否随时撤回同意、是否涉及跨境、是否有第三方再利用；了解伦理审查结论、审计与问责机制是否到位；更要问，研究结果会如何回馈你与社会——例如公开透明的研究结论、改良的诊疗路径、甚至探索更公平的利益共享机制。商业参与并不可怕，关键在于不以商业化“稀释”开放科学的初衷，而是把患者与公众纳入治理，让价值回流到公共健康。 “数据换药”的另一面，是对新药不盲目迷信的清醒。新药可能断供、样本量小、长期安全性不足；临床试验可能随机入安慰剂组与不良反应风险并存。你仍然需要完整的知情同意，在用药前后做好“双评估、双记录”，在遇到风险时有明确的退出与应急预案。数据的价值不应以牺牲个体权益为代价，合规与伦理是最低起点。我的答案是：在有清晰目的、最小必要、强加密与脱敏、可信数据空间和差分隐私等技术护栏、严格伦理与审计、可撤回与可追责机制、并承诺成果回馈公众的前提下，我愿意把数据化为一粒“药的种子”。因为在对抗13%与罕见病的赛跑里，时间就是生命，而数据是时间的加速器。这不是一次轻率的慷慨，而是一种有边界的互助。当个人尊严与集体福祉不再对立，当信任被工程化、被治理化，每一份被善用的数据，都是向未来投出的选票。愿我们在保护与创新之间，找准那条既不辜负自己，也能点亮他人的中线。最终问题不只是一剂新药，而是我们希望建立一个怎样的科学与社会：把人放在中心，把信任当作基础设施，把进步变成可被每个人分享的公共品。

新知 - 大圆镜｜科学的“巴别塔”：当海量数据无法对话，我们如何寻找通用语？

对抗知识焦虑，从看懂这条开始

App 下载

在古老的传说中，人类曾试图建造一座通天塔，名为巴别。他们的语言相通，协作无间，高塔直插云霄。然而，上帝扰乱了他们的语言，沟通的桥梁轰然倒塌，伟大的工程最终沦为一堆废墟。今天的科学界，似乎正在建造无数座属于自己的“巴别塔”。我们拥有前所未有的数据洪流，从基因序列到星系图谱，其体量之大，甚至让二战后的气象学家担心堆积如山的打孔卡片会压垮整栋大楼。然而，这些数据，这些构建现代科学殿堂的砖石，却常常因为缺乏一种“通用语言”而彼此隔绝，无法对话。

这一困境，在近期再次被推至台前。知名出版商Frontiers宣布将推出新的解决方案，试图帮助研究人员应对数据开放与复用中的重重挑战。这则新闻像一颗石子投入平静的湖面，激起的涟漪是科学界一个长久以来的痛点：早在2016年，G20集团就共同为科学数据定下了一个美好的理想——FAIR原则，即数据需满足“可发现”（Findable）、“可访问”（Accessible）、“可互操作”（Interoperable）和“可重用”（Reusable）。这四个字母，描绘了一个科学乌托邦：任何科学家都能轻易找到、获取、理解并复用前人的数据，从而站在巨人的肩膀上，加速知识的创造。然而，近十年过去，理想的光芒仍未完全照进现实。正如欧洲开放科学非营利组织OpenAIRE的专家所言，基础设施的鸿沟、激励机制的缺失以及专业“数据管家”的匮乏，共同构成了一堵难以逾越的高墙。

被遗忘的宝藏与无形的成本

数据的沉默并非没有代价。学者保罗·爱德华兹（Paul Edwards）曾提出一个生动的概念——“数据摩擦”（data friction），它描述了数据在流动时遇到的阻力、成本和变形。这种摩擦力，正在让科学的巨轮缓慢甚至空转。2014年的一项研究令人触目惊心：上世纪90年代的生物学数据集，如今的回收率竟不足一半。那些耗费巨资和心血收集的数据，就这样在时间的尘埃中悄然流失，成为无法阅读的“死海文书”。

与之形成鲜明对比的是，那些遵循了开放原则的数据，正在持续不断地创造价值。在PLOS平台上，凡是拥有数字对象唯一标识符（DOI）的数据集，98%至今仍能为新的研究服务，其引用率也比没有DOI的数据集高出超过25%。这背后隐藏的经济账更为惊人。欧盟委员会在2018年估算，不遵循FAIR原则，每年将给欧洲带来高达102亿欧元的直接经济损失和160亿欧元的间接损失。这不仅仅是数字，更是无数次本可以避免的重复实验、本可以加速的药物研发和本可以更精准的气候预测。

理想的四诫与现实的困局

FAIR原则，就像是为科学数据世界制定的“摩西十诫”，每一条都直指核心。我们可以将其想象成一个理想的全球数字图书馆：

可发现（Findable）：每份数据都像一本书，拥有一张详尽的“索引卡”（元数据），无论你在哪个角落，都能通过搜索引擎找到它。
可访问（Accessible）：找到之后，你可以通过一个标准的“借阅流程”（如DOI链接）轻松获取，没有无法打开的加密门或无人回应的邮件请求。
可互操作（Interoperable）：这本书是用一种“通用语言”写成的，或者自带“翻译器”，你的计算机能够读懂它的格式、理解它的术语，并能与其他书籍的内容进行比对分析。
可重用（Reusable）：书的扉页清晰地写着“版权信息”和“使用指南”，告诉你可以在何种条件下引用、复制或改编，让你用得明明白白。

然而，现实远比这复杂。最大的阻碍，往往并非技术，而是“人”。在一项调查中，高达67%的科学家认为数据共享不足是科研进步的主要障碍，但当被问及自己的数据时，仅有36%的人表示他人可以轻松访问。这种矛盾心态的背后，是根深蒂固的激励错位。在“不发表，就出局”的学术评价体系中，一篇高影响力的论文是硬通货，而精心整理、标注、上传一份可复用的数据集，却往往被视为耗时耗力的“慈善事业”，鲜少获得应有的学术回报。这种“共享的恶性循环”——因为很少被请求，所以很少投入共享，也因此很少请求他人——让开放科学的文化迟迟无法蔚然成风。

从“孤岛”到“大陆”：未来的破局之路

如何打破僵局，让数据孤岛连接成一片知识大陆？全球的探索者们正在从多个维度寻找答案。

路径一：顶层设计，搭建基础设施的“高速公路”

自上而下的推动力至关重要。欧盟正在雄心勃勃地构建覆盖健康、工业、能源等九大领域的“欧洲数据空间”，通过统一的法律框架（如GDPR、数据法案）和技术标准，打造一个安全、可信的数据流通生态。在中国，“数据二十条”等政策的出台，正从制度层面为打破“数据孤岛”、促进数据要素市场化配置铺平道路。与此同时，具体的科学基础设施项目也在落地。美国国家航空航天局（NASA）最新发布的SciX平台，就是一个典范。它不再是一个个独立的数据库，而是将文献、数据、软件、项目档案融为一体的“知识网络”，实现了从“发现”到“验证”的无缝衔接，标志着科学数据管理正从“数据库时代”迈向“知识网络时代”。在中国，由多个国家科学数据中心联合构建的CoNet协作式数据基础设施，已将数据流转效率提升6.5倍，在天文学、生态学等领域展现出强大的跨域协作能力。

路径二：社区驱动，培育开放共享的“文化土壤”

除了宏大的基础设施，文化的变革同样不可或缺。像《Scientific Data》这样专注于发表“数据论文”的期刊，正在为数据共享者提供正式的学术承认。越来越多的资助机构，开始将提交“数据管理计划”（DMP）作为项目申请的硬性要求。更重要的是，需要培养一批新型的专业人才——“数据管家”（Data Stewards）。他们是科学家和信息技术专家之间的桥梁，懂得如何对数据进行专业的清洗、标注和管理，使其真正符合FAIR原则。这不仅是一个新职业的诞生，更是科研协作模式的一次深刻转型。

路径三：AI赋能，机遇与挑战并存的“催化剂”

人工智能的浪潮，为这场变革带来了最大的变量。一方面，AI是破解数据困境的强大工具。它能以前所未有的效率处理和分析海量、多模态的复杂科学数据，甚至能自动补全元数据、转换数据格式，极大地降低了实现“互操作性”的技术门槛。另一方面，AI的深度学习模型对高质量、大规模的标注数据集有着近乎贪婪的需求，这反过来又极大地推动了开放数据的价值。然而，AI也带来了新的伦理挑战：如何确保用于训练模型的数据没有偏见？如何防止AI被用于制造虚假的科研数据？AI辅助下的科学发现，其知识产权又该如何界定？这些问题，要求我们在拥抱技术红利的同时，必须建立起与之匹配的伦理规范和治理体系。

结语：超越巴别，走向协作的未来

科学的本质，是一场永无止境的集体对话。FAIR原则的落地之所以艰难，因为它触及的不仅仅是技术和政策，更是科研的文化、价值和人性本身。它要求我们重新思考：在数字时代，知识应该以何种形态存在？科学家的贡献，又该如何被衡量？

从堆积如山的打孔卡片，到互联互通的“可信数据空间”，我们正处在一个关键的转折点。前方的道路依然漫长，但破局的曙光已经显现。通过政策的引导、技术的赋能和文化的革新，我们或许终将能够超越“巴别塔”的宿命，不再让语言的隔阂阻碍思想的交融，从而构建一个真正开放、协作、高效的全球科学共同体，共同攀登那座属于全人类的知识之塔。

被遗忘的宝藏与无形的成本

理想的四诫与现实的困局

从“孤岛”到“大陆”：未来的破局之路

结语：超越巴别，走向协作的未来

评论