David Silver 上一次出现在镁光灯下,是 2016 年首尔那间会议厅。准确说,是李世石对面那张桌子的「身后」。坐在桌边的,是 AlphaGo。

十年过去,他从谷歌 DeepMind 辞了职,在伦敦另起一摊。融资公告挂出来不到 24 小时,欧洲创投圈集体屏息:种子轮 11 亿美元,估值 51 亿美元,红杉与 Lightspeed 联合领投,英伟达、DST Global、Index、谷歌、英国主权 AI 基金一连串的名字。
这是欧洲风投史上最大的一笔种子轮。
「最大种子轮」只是开场,不是重点
先把数字摆完。
公司叫 Ineffable Intelligence。注册于 2025 年 11 月,Silver 今年 1 月才正式从 DeepMind 离职、全职接手。从公司成立到拿到这笔钱,不到半年。
种子轮就给出 51 亿美元估值,几乎追平 Mistral 一年前的 B 轮,超过同期任何一家欧洲 AI 初创公司的早期估值。投资人名单也罕见地把欧美主权资本、硅谷顶级 VC 与算力提供方一次性凑齐。英国政府的主权 AI 基金第一次参与到这种规模的早期轮,本身就是一个信号。
种子轮拿这种钱,传统意义上是说不通的。早期投资人通常要等到产品、收入、客户三件套至少出现一件,才会下重注。Silver 这一轮等于跳过了所有环节,直接拿到了一家中型上市公司级别的估值。
钱的来源没什么悬念。他们押的不是产品,是一种范式。这个判断后面会展开。
先看 Silver 自己的简历。十年 DeepMind,主导或合作主导过 Atari 像素玩游戏、AlphaGo、AlphaZero(围棋、国际象棋、将棋三合一无人类棋谱版)、AlphaProof(国际数学奥赛拿到银牌)。他还是 UCL 教授。也就是说,他几乎是过去十五年里把强化学习从学术冷门做到工业头条的那个人。

这种履历的价值不是论文数量,而是一种垄断式的话语权。这一行里能同时拿到「学术声誉 + 工程履历 + 教科书地位」三件套的人,全世界不超过五个。
他不要人类数据
故事真正反直觉的地方在这里。
GPT、Claude、Gemini 这一代模型,本质上是把人类写过的所有东西塞进网络里、压缩成一团语义概率,再用各种后训练方法把它「调出来」。它能写邮件、能写代码、能演段相声,是因为人类已经写过了所有这些东西。
Silver 在 Ineffable 官网上写的目标,是造一个 superlearner,超级学习者。它要做的事情,是不依赖任何人类生成的数据,只通过自己的「经验」从零学起,从最基础的运动技能一直到「深刻的智识突破」。

这不是一句营销话术,背后有一篇正在出版的文章。
去年开始,Silver 和强化学习教科书作者、图灵奖得主 Richard Sutton 合写了一篇文章,标题叫《经验时代(Era of Experience)》,是即将由 MIT Press 出版的《Designing an Intelligence》的节选。文章里有一句被反复引用的判断。
人类写过的东西,已经基本被模型读完了。再往后,预训练的边际收益会越来越薄,scaling law 会变成一条平缓的折线。
下一代 AI 的出路,不是更大的语料、更多的人类反馈,而是让模型自己从环境里生成经验。它去尝试、去失败、去交互、去把那些没有任何人写过的东西,自己摸索出来。
红杉合伙人在公告里把话说得更满。「如果成功,这将是一项达尔文级别的科学突破。他的法则解释了所有生命,我们的法则将解释和构建所有智能。」
这种话很容易让人翻白眼。但也别急着翻,它至少坦白了红杉的真实判断,他们押的不是一个聊天助手,也不是某个垂直行业的 copilot,而是一个新的可能性。
其实这不是新故事
熟悉 Silver 履历的人会发现,superlearner 这条思路并不新。
2017 年的 AlphaZero 就是这么干的。围棋、国际象棋、将棋三个项目,没有用任何人类棋谱,全靠自我对弈,几个小时之内打穿所有此前的最强引擎。2024 年的 AlphaProof 在国际数学奥赛拿到银牌,走的也是同一条路径,用自我生成的形式化证明训练自己。

听起来很性感。但这条路过去十年里几乎所有 RL 实验室都撞过墙。
原因是「自我对弈」需要一个干净的环境。围棋有 19×19 的棋盘和黑白两色的规则,国际象棋有八条横线和明确的胜负。在这种封闭环境里,模型可以毫不含糊地知道什么是「赢」,于是就能毫不含糊地优化。
但你把任务换成「写一份能让客户买单的合同」「证明一个还没被证明过的数学猜想」「在一座陌生城市里把一辆出租车开回酒店」,奖励信号怎么定,环境怎么搭,这些问题过去十年没有一个被真正解决。
Silver 这一次的赌注,是公开承认这个问题还没解决,然后带着 11 亿美元、一支新团队、一个全新组织重新动手。
为什么是现在?
2026 年的市场愿意为「不读人类数据」的 AI 押 11 亿美元,答案藏在过去 12 个月几个并不孤立的信号里。
OpenAI 的 o3、o4 系列,训练越来越依赖强化学习后训练。「思考」「推理」这些能力,已经不再来自更大的预训练,而来自 RL 阶段的环境互动。DeepSeek R1 紧接着把强化学习的小样本路径直接做成了开源样板,任何一家有点工程能力的团队,今天都能复现一个「会思考」的小模型。RL 不再是 DeepMind 内部的玄学,已经变成行业常识。
更深的一层是预训练 scaling law 见顶的讨论,从 2025 年下半年开始几乎每月都有新论文。当人类语料里的高质量 token 已经基本被吃完,再扩大模型尺寸的边际收益开始明显打折。资本侧已经在悄悄换轨,过去半年硅谷顶级 VC 投出去的 AI 大单,越来越多落在 RL、世界模型、agent 这些「后预训练」方向,而不是又一个 LLM 工厂。
市场早就在为「后预训练时代」准备弹药。它只是在等一个能扛起这面旗的人。Silver 几乎是这个角色的教科书答案。在 RL 这条线上,他既有 AlphaGo 的公众认知度,又有 AlphaZero、AlphaProof 这种工程履历,还有和 Sutton 合著的话语权。
11 亿美元砸过去,本质上是市场在用钱投票。强化学习不是一种技术路线,是下一个范式。
12 个月以后,我们看什么
11 亿美元能造一座芯片厂,能买一支足球俱乐部,能拍若干部电影。用它去造一个无须人类数据的通用智能,能不能成?
没人知道。Silver 也没说。
但接下来 12 个月有几个观察点已经摆好了。最直接的一个是 Ineffable 会不会先做一个比 AlphaProof 更难的「自学」基准证明。数学奥赛是一个干净的封闭环境,再下一步如果是「无形式化定义的研究级数学」,难度会陡然上升一个台阶。这一关过不过得去,几乎可以决定整个故事的走向。
接下来要看红杉的动作。顶级 VC 在种子轮押重注之后,A 轮的节奏决定外界对项目的判断。如果 12 个月内出现 30 亿美元规模的 A 轮,意味着早期成果已经超出预期。如果迟迟没有,市场会重新校准这个估值。
DeepMind 那边也要看。Silver 走了之后,他原来带的 RL 团队下一篇论文会怎么写、谁会署名、有没有人跟着出走,这些都是初创公司从「单兵明星」走向「机构级研究力」的判断节点。
最后是中国。已经有 R1 路径的 DeepSeek、有字节 Seed 的字节,2026 年下半年会不会公开自家的「无人类数据」探索。这条路如果走通了,不会只属于伦敦的一家公司。
不管 superlearner 这条路最后走不走得通,11 亿美元至少已经把一件事按到了桌面上。当所有人都在比谁能把人类的话学得更像,有人开始问,为什么 AI 一定要先变成我们,才能变得比我们更好?
