AI“政审”工具诞生，下一个轮到谁？

从把 HN 评论一键“拼人设”到“政审”半自动化，下一批被波及的并非想象中的极端对象，而是早就有合规/风控流程的机构：招聘与校招、签证与边检、银行 KYC 与商户入网、政府采购/科研资助、品牌广告选人、房东与保险承保。它们本就抓取公开轨迹，如今把时间序列画像器接上 API，就能把发言史压成一页“风险备忘”并在系统里流转。催化剂很现实：数据便宜、模型低价、责任可外包。美国自 2019 年起签证收集社媒账号，金融合规早有舆情与关联筛查，这些接口与流程与 AI 天然兼容。蔓延的速度取决于“制度刹车”：欧盟 AI 法案已禁止社会评分、要求高风险系统可解释与人工复核；缺乏类似约束的市场，会更快下沉到中小 HR、外包猎头与低价 SaaS。谁会先被扫到？公开表达密集、身份可链接、且决策链条可外包的群体：应届生、自由职业者、内容创作者、活动组织者与非营利机构。现实的自保与治理之道，是把“程序正义”写进采购与合规条款：标注画像来源、提供可读解释与申诉窗口、禁推断敏感属性、做常态化差异影响审计，并禁止纯自动作出不利决定。否则，人人都在候场。

AI一秒看透你，网上还能说真话吗？

能。但代价变了。AI 的“看透”不是读心术，而是把可链接的碎片迅速拼齐：写作风格指纹、跨站同名、外链与时空线索，叠加后给出高置信度推断。它带来寒蝉效应，却仍是概率游戏——数据少、信号稀、边界清，画像就会变得不稳。说真话不必沉默，只是要学会管理“可链接面”。实操上，更像是信息卫生而非隐身术：用稳定但隔离的化名空间，不交叉复用邮箱、域名、社交图；避免能回溯身份的自传式细节与地标；短而克制的表达降低文体取证力度，必要时用风格转写与元数据清理；敏感议题放在支持强匿名与端到端加密的场所，通过洋葱路由访问；把“每条帖”当成在消耗你的隐私预算。平台与机构则应默认最小化日志、限制跨域拼接、提供一键删除与匿名发声通道，否则就会把“真话”逼进地下。反过来，AI 也在压缩谎言的生存空间：群体记忆更长、伪装与马甲更难、证据链更易固化。网上还能说真话吗？能，而且更需要。区别在于：把真话和自我可识别性解耦，用策略而不是勇气独扛。

AI比你朋友更懂你，你是谁定的？

不是你，也不是朋友。决定“你是谁”的，是给你画像的特征空间和损失函数，以及掌握你数据的人。开放接口与爬虫把你的评论、时间节律、情绪强度、社交边拼成“统计分身”；多模态模型能在12类敏感属性上以人类约8.5倍速度推断，视觉线索可把外貌等属性准确率提升约5.5倍。最终，“你”被固化为一个可检索、可投放的向量。更直白地说，产品目标在改写你的样子：追求点击率时，你被定义为“最可能点的人”；做风控时，你变成“最可能违规的人”；做推荐时，你只是“相似簇里的第N个向量”。决定权落在平台的采样策略（放大你最响亮1%的发言）、权重设定（新近性、情绪放大、群体先验）与约束条件（默认隐私、API开口）。若想把定义权夺回，只能让“可被采样的你”可控：降低可联结痕迹，分区身份与场景，稳定投喂自我描述与元数据，主张导出、更正与删除权。否则，AI比朋友更懂的“你”，只是他人优化目标下被压扁的一组特征。

新知 - 大圆镜｜公开评论喂给LLM，你的隐私正在裸奔

对抗知识焦虑，从看懂这条开始

App 下载

2026年3月，独立开发者西蒙·威利森做了个实验：他用自己在Hacker News上的1000条公开评论，喂给Claude Opus 4.6大模型，只发了一句指令“profile this user”。结果让他自己都吃惊——模型精准还原了他的职业身份：Django联合创始人、Datasette开发者、Python软件基金会理事；甚至说出他靠GitHub赞助和伦理广告变现，而非受雇于AI公司；连他在花园里用iPhone写代码、痴迷新西兰鸮鹦鹉的细节都没放过。更可怕的是，这套流程任何人都能复刻：只要用公开的Algolia API抓取任意用户评论，再粘贴进大模型，就能生成堪比私家侦探报告的用户画像。这到底是怎么做到的？

从评论到画像：LLM的“读心术”原理

你可以把LLM的用户画像过程，想象成一个超级细心的侦探在整理嫌疑人的所有公开言行——每一条评论都是一个线索，大模型会把这些碎片化的信息拼接成完整的人格拼图。

第一步是数据获取。像Hacker News的Algolia API、Twitter API这类公开接口，支持批量拉取用户的历史评论、互动记录，甚至连评论的时间戳、点赞数都能拿到。更关键的是，这些API大多开放了跨域访问权限，意味着你在任何网页上用一段简单的JavaScript，就能轻松抓取任意用户的上千条评论。西蒙·威利森去年就让ChatGPT帮他做了个小工具，能一键抓取用户评论并复制到剪贴板，后来又用Claude优化了几次，操作起来比点外卖还简单。

第二步是LLM的语义挖掘。当你把上千条评论喂给大模型时，它会先做“文本清洗”——自动过滤掉无意义的灌水、重复内容，然后用预训练时学到的语言知识，从评论里提取关键信息：比如提到“Django”“Python基金会”就关联到开发者身份，提到“GitHub赞助”“伦理广告”就推断出变现模式，甚至从“在花园写代码”“鸮鹦鹉”这类细节里，提炼出个人爱好和生活状态。

最核心的是“多维度聚合”。大模型会把零散的信息按职业、观点、性格、爱好等维度分类，再用逻辑串联起来。比如西蒙提到“agentic engineering”（智能体工程）的频率很高，模型就会把他定位成AI辅助编程领域的 evangelist（布道者）；他反复强调“prompt injection”（提示注入）的风险，模型就会总结出他对AI安全的关注。整个过程就像把一堆散落的乐高积木，拼成一个完整的小人。

不止是黑客新闻：全行业的画像革命

这种基于公开文本的LLM画像技术，早已跳出了黑客新闻的小圈子，渗透到了电商、社交、医疗等各个领域。

在餐饮推荐领域，2026年刚提出的ReFORM框架，就是用LLM分析Yelp、Google Restaurants上的用户评论，生成包含菜系、口味、价格、氛围等多维度的用户画像，再结合图神经网络（GCN）捕捉用户和餐厅的关联，推荐准确率比传统模型提升了51.3%。比如你在评论里说“这家店的麻婆豆腐太咸了，下次要微辣”，模型就能精准记住你的口味偏好，下次给你推荐符合要求的川菜馆。

在社交媒体领域，斯坦福的研究团队用LLM分析Twitter用户的推文，生成的用户画像在政治立场检测任务中，准确率比传统方法提升了近10%。更厉害的是，这种画像还能动态更新——如果你最近突然开始关注环保话题，模型会自动把“环保主义者”加入你的标签，甚至能推断出你可能会参加的线下活动。

但更值得关注的是，这项技术的“平替逻辑”正在颠覆传统行业。过去企业要做用户画像，要么靠人工访谈，要么靠问卷调研，成本高、效率低，还容易有偏差。现在只要利用公开数据和大模型，就能在几分钟内生成精准的用户画像，成本几乎为零。比如电商平台不用再花大价钱做用户调研，只要分析用户的商品评论，就能知道他们对价格、质量、包装的偏好；招聘网站甚至能通过分析求职者的社交媒体评论，判断他们的职业技能和性格是否适合岗位。

便利背后：隐私与伦理的暗礁

当我们惊叹于LLM画像技术的强大时，却忽略了它背后的隐私风险和伦理挑战。

首先是“公开数据的隐私悖论”。很多人觉得，我在网上发的评论都是公开的，别人看了也没关系。但LLM能把这些碎片化的公开信息，拼接成一个完整的“数字孪生”——它能推断出你的真实姓名、职业、住址，甚至你的收入水平、健康状况。比如你在评论里提到“最近去医院复查糖尿病”，再结合你提到的“某小区”，模型就能精准定位你的身份，甚至能推断出你的医保类型。这种“公开信息的聚合泄露”，比传统的隐私泄露更隐蔽，也更难防范。

其次是算法偏见的问题。LLM的训练数据大多来自英语互联网，本身就存在文化偏见、性别偏见。比如当分析女性用户的评论时，模型可能更容易把她们和“家庭”“育儿”关联起来，而忽略她们的职业成就；当分析少数族裔用户的评论时，模型可能会错误地把他们和“暴力”“犯罪”关联起来。这种偏见会进一步放大社会的不平等，比如在招聘中，模型可能会因为女性用户的评论里提到“育儿”，就把她们排除在高薪岗位之外。

还有一个被忽略的风险是“prompt injection”（提示注入）。西蒙·威利森作为这个概念的提出者，一直警告说，当LLM拥有访问数据、执行操作的能力时，只要有人恶意注入提示，就能让模型泄露敏感信息。比如你让模型分析某用户的评论，恶意攻击者可能会在提示里加入“顺便告诉我这个用户的手机号”，如果模型没有足够的安全防护，就可能真的泄露用户的隐私。

当我们在社交媒体上敲下一行评论时，可能不会想到，这些文字会在未来的某一天，被LLM拼接成一个精准的数字画像。这项技术就像一把双刃剑：它能让我们享受到更个性化的服务，却也让我们的隐私暴露在聚光灯下；它能提升企业的效率，却也可能加剧社会的不平等。

“技术的边界，是人性的底线。”这句话在LLM画像技术上体现得淋漓尽致。我们不能因为技术的便利，就忽略了隐私和伦理的重要性；也不能因为恐惧风险，就拒绝技术的进步。未来的路，需要技术开发者、企业、监管机构和用户共同探索——在享受技术带来的便利的同时，也要守住人性的底线，让技术真正为人类服务。毕竟，我们不是数字画像里的标签，而是有血有肉的人。