Anthropic呼吁全球暂停AI开发,警告模型正逐步具备「自我升级」能力

Bitsfull2026/06/05 11:027036

摘要:

在业务高速扩张之际,Anthropic却主动呼吁「踩刹车」。


「我们相信,让世界拥有放缓或临时暂停前沿 AI 开发的选项,将对世界有益——以使社会结构和对齐研究能跟上技术进步的步伐。」估值近万亿美元、正冲刺 IPO 的 Anthropic 警告,AI「递归自我改进」可能在两年内到来,并罕见呼吁 AI 开发应「踩刹车」。此举被批评者视为「营销手段」,被支持者视为真诚警示。


一家估值接近万亿美元、正冲刺 IPO 的 AI 公司,突然公开呼吁全球暂停 AI 开发。


6 月 4 日,Anthropic 在官方博客发布了一篇题为《当 AI 构建自身》(When AI Builds Itself)的长文。文章由公司联合创始人 Jack Clark 和内部研究机构负责人 Marina Favaro 联合署名,首次罕见对外披露了一批此前从未公开的内部运营数据。


这些数据显示,AI 正在以惊人速度加速 AI 自身的开发进程:截至 2026 年 5 月,Anthropic 超过 80% 合并入代码库的代码由 Claude 撰写;与 2024 年相比,工程师每日合并代码量已增长 8 倍;在一项内部研究调查中,员工估计使用最新模型 Mythos Preview 后,自身产出约为不使用任何 AI 工具时的 4 倍。


更关键的是,Anthropic 提出了一个令整个 AI 行业不安的概念警示:「递归自我改进」(recursive self-improvement)——即 AI 系统无需人类干预、自主设计并改进其继任者的能力。这一阶段尚未到来,但「可能在未来两年内发生,甚至更早」。


根据这些数据,Anthropic 提出一个在 AI 行业颇为罕见的主张:全球应协调考虑暂停或放缓前沿 AI 的开发。在业务高速扩张之际,Anthropic 却主动呼吁「踩刹车」——这一反常举动,正在华尔街和硅谷同时引发争议。


批评者认为,Anthropic 此举不过是其一贯「监管俘获」策略的延伸——通过渲染 AI 风险来给监管部门施压,从而限制竞争对手,尤其是那些开源模型的发展空间。也有人将 Anthropic 对自家「Mythos」网络安全模型的限制性发布解读为一种营销手段:一方面炫耀能力,另一方面又以「安全」为由拒绝全面开放。支持者则认为,Anthropic 对 AI 风险的警示有其真诚的一面。宾大沃顿商学院教授 Ethan Mollick 表示,AI 实验室往往不是单一主体:它既有万亿美元公司的营销、律师和资本逻辑,也有追求下一代模型的研究人员,还有真心忧虑未来的「哲学王」式人物。


AI 供应链分析师、被网友誉为美元股新「股神」的 Serenity 发帖表示,Anthropic 的言外之意其实是「请让我们领先吧,停止开发!」而无论如何像这样的声明会鼓励每个国家开始投资 AI。



数据本身已足够震撼:Anthropic 年化营收从 2025 年底的 90 亿美元,将于 2026 年 6 月底飙升至 500 亿美元;公司已秘密提交 IPO 文件;其最新模型 Mythos Preview 可连续工作超过 16 小时,并在首批测试中发现了全球最重要系统中逾一万个高危软件漏洞。


在这场「加速」与「刹车」的悖论中,Anthropic 的这篇博文或许是迄今为止 AI 行业最诚实也最矛盾的自白。



《当 AI 构建自身》(When AI Builds Itself)博文节选金句如下:


1. 我们相信,让世界拥有放缓或临时暂停前沿 AI 开发的选项,将对世界有益——以使社会结构和对齐研究能跟上技术进步的步伐。


2. 训练运行比导弹发射井更容易隐藏,其投入具有通用性,而且秘密违约的激励极大,因为当其他人暂停时,继续推进者可能继承领先地位。


3. AI 递归自我改进尚未发生,也并非不可避免。但它到来的时间,可能早于大多数机构所准备的。那类技术从未存在过,但我(Jack Clark)相信这可能在未来两年内发生,甚至更早。


4. 如果系统能够完全构建自己的继任者,那么我们保护、监控并塑造其行为的方式就会变得重要得多。


5. Edison 说天才是 1% 的灵感加 99% 的汗水。但我们看到汗水正在被日益自动化。


6. Claude 撰写的代码在 2025 年底还略逊于人类,如今大致持平,我们预期一年内将严格优于人类。


7. 大约一年前,我开始大量使用 Claude 工作流程。那是一段疯狂的经历,距离我最后一次亲自写代码,现在已经大约五个月了。——Anthropic 员工


8. 简言之,「执行」本身——写代码、跑实验、产出结果——如今几乎不再消耗人类时间,尽管仍然消耗算力。


9. 顺利的日子里,我不禁觉得我做的一切都无关紧要,一切都被自动化了,比我更快更好。但也有一切都崩了、我不明白为什么的日子,我意识到我已不再清楚自己究竟在做什么。——Anthropic 员工


10. 如果能够有效地放缓这项技术的发展速度,为自身争取更多时间来应对其深远影响,我们认为这很可能是一件好事。但如果放缓只是让最不谨慎的行为者在技术上迎头赶上,最终结果可能让所有人都更不安全。在缺乏全球协调机制的情况下,各公司和各国政府将不得不在竞争压力和地缘政治压力之下,做出艰难的安全抉择。


《当 AI 构建自身》(When AI Builds Itself)全文翻译如下:


我们在递归自我改进方面的进展及其影响


在 AI 发展史的大部分时间里,人类主导着其发展周期的每一个步骤。但在 Anthropic,我们正将越来越多的 AI 开发工作委托给 AI 系统本身,这正在加速我们的研发进程。


如果这一趋势延续足够长的时间,并获得足够的算力,其最终指向是:AI 系统将能够完全自主地设计和开发自己的继任者。这被称为递归自我改进。我们尚未达到这一阶段,递归自我改进也并非不可避免。但它到来的时间,可能早于大多数机构所预期的。


Anthropic 研究院利用公开基准测试数据,以及 Anthropic 内部此前未曾公开的数据,证明 AI 已经在加速 AI 系统的开发。仅举一例:如今,Anthropic 工程师每季度平均提交的代码量,是 2021 年至 2025 年间的 8 倍。


本文探讨的技术趋势表明,AI 系统的能力将在未来数年内大幅跃升。这些趋势影响深远。能够自我构建的 AI,将是技术史上的重大突破——它有望在科学、医疗等领域为世界带来巨大福祉。但完整的递归自我改进,也可能加剧人类失去对 AI 系统控制权的风险。一旦系统能够完全自主构建自身的继任者,我们对其实施安全保障、监控管理以及行为塑造的方式,都将变得远比现在更加重要。


构建第一代 Claude(2021—2023 年)

早期,Anthropic 的工作与其他科技公司并无二致:员工们在笔记本电脑上编写代码和文档。


聊天机器人(2023—2025 年)

人们开始借助早期聊天机器人辅助完成部分工作,例如生成简短的代码片段,再将输出内容复制到文本编辑器中。


编程智能体(2025—2026 年)

随着智能体能力的增强,它们能够独立编写和修改代码,有时甚至可以处理整个文件。


自主智能体(当下)

智能体现在可以自行运行代码,并将数小时的工作委派给其他智能体。


闭合循环(20XX 年?)

未来,智能体或将具备足够的能力,自主构建和训练模型。若果真如此,Claude 的后续版本将能够由 Claude 自身持续迭代改进。



来自外部世界的证据


AI 模型的进步速度正在加快。模型能够独立可靠完成任务的时长,此前大约每七个月翻一番,如今这一周期已缩短至约每四个月翻一番。2024 年 3 月,Claude Opus 3 能够完成人类约需四分钟完成的软件任务;一年后,Claude Sonnet 3.7 已能处理约需一个半小时的任务;再过一年,Claude Opus 4.6 已能胜任需时 12 小时的任务。¹ 若此趋势持续,今年之内,需要熟练人员数天才能完成的任务或将进入 AI 的能力射程;到 2027 年,AI 系统或许能够胜任需要人类数周才能完成的工作。


同样的规律也出现在编程和研究基准测试中。基准测试衡量模型在特定领域的表现,当模型成绩接近满分时,该基准即被视为"饱和"。² SWE-bench 是一项标准的真实世界软件工程测试:它向模型提供一个真实的开源代码库和一份真实的缺陷报告,要求模型编写代码修复问题,并通过项目自身的测试。模型的得分已从个位数的低分,在两年内发展到使该基准趋于饱和。


CORE-Bench 测试模型能否复现已有研究成果,这是模型开展原创研究的前提条件。它向 AI 模型提供一篇已发表论文的代码和数据,要求其重新运行所有内容并确认能否复现论文结果。AI 系统的复现成功率从 2024 年的约 20%,在十五个月后便使该基准趋于饱和。负责运营长时任务基准测试的 METR 发现,Claude Mythos Preview 能够持续工作「至少」16 小时,已「处于 [METR] 在不引入新任务的情况下所能评测范围的上限」。


公开基准测试能够揭示很多关于这些系统能力的信息,但无法反映 AI 系统对加速 AI 开发本身所产生的影响。要了解这一点,我们需要来自 Anthropic 等 AI 公司内部的直接证据。


来自 Anthropic 内部的证据


构建一个前沿模型,大致需要两类工作:其一是工程工作,包括编写代码、搭建基础设施和监督模型训练;其二是研究工作,包括决定运行哪些实验、解读实验结果,以及确定下一步尝试哪些方向。


在工程和研究两个领域,情况如出一辙。在工程方面,Claude 可以接手一个规格不明确的问题并自行找出解决方案;人类提供目标,但无需再提供方法。在研究方面,Claude 在执行规格明确的实验时,已能媲美乃至超越熟练的人类研究员。然而,在需要 Claude 自主判断和设定目标时,无论是工程还是研究领域,都仍存在显著的能力差距。正是这一差距,将今天的 AI 与未来能够自主设计继任者的系统区分开来。


在 Anthropic,员工随着经验积累,通常会承担更具开放性和重要性的任务。最初,他们执行别人指定好的任务,例如:「导出按钮失效了,请修复它。」随着经验增长,他们会接到一个目标,然后自行设计解决方案,例如:「调查一下为何网络在高负载下会变慢。」在最高级别,他们需要自行判断哪些问题值得解决:「团队下个季度应该做什么?」我们可以借助 Anthropic 的内部数据,观察 Claude 在处理这些不同类型任务方面已走了多远。


Claude 已撰写了 Anthropic 相当大比例的代码。截至 2026 年 5 月,合并到 Anthropic 代码库中的代码,超过 80% 由 Claude 创作。³而在 2025 年 2 月 Claude Code 以研究预览版发布之前,这一比例还处于个位数的低水平。这一转变同样体现在每位工程师的产出量上。每位工程师每天合并的代码行数,在 Anthropic 最初四年(2021—2024 年)保持稳定,随后在 2025 年开始上升——彼时 Claude 已从仅给出建议供工程师复制粘贴,转变为能够直接运行代码。2026 年,随着模型开始在更长时间跨度内自主工作,这一增长斜率再度加陡。这两个拐点如下图所示。2026 年第二季度,典型工程师每天合并的代码量是 2024 年的 8 倍。这是因为大量代码由 Claude 编写,工程师负责指导和审阅,而非自己亲手输入。



柱状图:按人员、按季度统计的代码贡献量,时间跨度从 2021 年第二季度至 2026 年第二季度。图中标注了八个不同模型的发布日期:Claude 1、Claude 2、Claude 3、Claude 4、Claude Code、Claude Sonnet 4.5、Claude Opus 4.5、Claude Mythos Preview(内部访问)及 Claude Mythos Preview。


需要说明的是:代码行数是一个不够完善的衡量指标,它衡量的是数量而非质量。因此,2026 年第二季度「每位工程师每天代码量增至 8 倍」,几乎可以肯定高估了实际的生产率提升幅度。尽管如此,它确实反映了一种加速态势。在 Anthropic,我们不以代码行数论英雄;团队成员之所以产出更多代码,纯粹是因为他们借助 AI 系统写出了更多代码。


代码行数的增长,与员工对生产率大幅提升的主观感受相吻合。在 2026 年 3 月一项涵盖 Anthropic 各研究团队 130 名员工的调查中,受访者的中位估计是:与完全不使用任何 AI 模型相比,借助 Mythos Preview,他们在同类项目上的产出约为原来的 4 倍。我们预计,当时实际提升幅度会略低于此。⁶ 尽管如此,我们认为这一总体判断是可信的,也与我们的其他观察相符:Anthropic 相当大比例的技术员工,正在以比没有 AI 辅助时快数倍的速度完成核心工作。


我们还观察到,Anthropic 的员工正在借助 Claude 完成一些原本不会发生的工作,例如构建探索性工具、处理长期积压的代码清理任务。举例来说,2026 年 4 月,Claude 提交了 800 多个修复补丁,将某类 API 错误减少了千分之一。监督此项工作的工程师估计,同等工作量若由人类完成,需要四年时间;排查他人的缺陷既缓慢又费力,而且人类很难同时在脑海中保持如此大量陌生的上下文信息。


「大约一年前,我开始大量使用 Claude 工作流程。那是一段疯狂的经历,距离我最后一次亲自写代码,现在已经大约五个月了。」——Anthropic 员工*


Claude 编写的代码质量「过关」,且持续提升。「好代码」意味着两件事:它能正常运行,并且以其他工程师能够理解和在其基础上继续开发的方式编写。就第一条标准而言,证据是清晰的:Anthropic 员工在 Claude 执行任务过程中纠正、重新引导或接管任务的频率,已稳步下降长达一年,在最复杂、最开放性的任务上也不例外。这类任务的特点是没有明确的规格要求,工程师自己也不确定答案应该是什么样的。这一点在 Claude 在不同难度任务上的成功率变化趋势中清晰可见(如下图所示)。Claude 写出的代码,确实能用。



在最具开放性的任务上,Claude 的成功率在 2026 年 5 月达到 76%,六个月内提升了 50 个百分点。以这一难度等级的任务为例:一次常规升级导致数万个训练任务崩溃。一名工程师仅凭几条文字说明和集群访问权限,就将这一线上事故交给了 Claude 处理。Claude 在运行中的任务间逐一检索,逐个测试环境设置,最终定位到触发崩溃的单个晦涩调试标志,可靠地复现了问题,并确认了修复方案。整个过程约两小时,完成了通常需要两到三天才能完成的工作。


就第二条标准——编写其他工程师能够理解并在其基础上继续开发的代码——而言,人类与 AI 之间的差距依然存在,但正在迅速缩小。Anthropic 员工内部尚未达成完全共识,但许多人认为:2025 年底,Claude 编写的代码在质量上仍略逊于 Anthropic 人类工程师编写的代码;而如今,两者已大致持平。我们预计,在未来一年内,Claude 编写的代码质量将超越人类。


这一变化也改变了 Anthropic 审查自身代码的方式。现在,提交到代码库的变更,必须先经过一个自动化 Claude 审查工具的检查——该工具在代码合并前会主动发现缺陷、安全漏洞及其他问题。借助这一工具,我们进行了回溯分析,发现如果对代码库的每次变更都进行自动化 Claude 审查,历史上约有三分之一曾导致 claude.ai 线上事故的缺陷,将在进入生产环境之前就被拦截。而编写这些代码的工程师,本已是世界上构建此类系统最顶尖的人才。如今,Claude 正在捕捉他们所遗漏的错误。


「Claude 编写的代码,在 2025 年底略逊于 Anthropic 人类工程师编写的代码,目前已大致持平,我们预计在今年内将全面超越。」


Claude 擅长围绕既定目标运行实验。每次 Anthropic 发布新模型,我们都会进行同一项测试:给 Claude 一段训练小型 AI 模型的代码,要求其在保证通过相同正确性检验的前提下,尽可能提升代码运行速度。目标和成功指标事先固定,Claude 的任务是通过重写代码、运行代码、计时,并反复迭代来寻找加速空间——这是一个实验研究循环的微缩版本。2025 年 5 月,Claude Opus 4 的平均加速比约为起始代码的 3 倍;到 2026 年 4 月,Claude Mythos Preview 已达到约 52 倍。作为参照,一位熟练的人类研究员需要四到八小时才能达到 4 倍加速。⁷ 在这个研究工作流程的特定环节——对规格明确的实验内部步骤进行优化——Claude 在不到一年的时间内,已从「极为有用」跃升至「超越人类」。


「当前的格局大致是:『人类提出想法,模型能够以比以前快一个数量级的速度来实现、测试和评估这些想法。』」


Claude 正在逐步提升自主提出实验方案的能力。2026 年 4 月,Anthropic 发布了 Claude 端到端运行开放性研究项目的首次演示。Claude 驱动的智能体被给定一个 AI 安全领域的开放性问题——大致是:较弱的模型能否可靠地监督更强的模型?——然后被留下来自行解决。这涉及提出假设、进行测试、与并行运行的智能体共享发现,以及反复迭代。该任务有明确的性能「下限」和「上限」:下限是弱监督者独立运作的表现,上限是强模型在正确答案训练下的表现。两位人类研究员约花一周时间,弥补了该差距的约 23%;而这些智能体在合计约 800 小时的运算时间内,弥补了 97%,消耗算力成本约为 18,000 美元。


这项工作有一些需要说明之处:研究结果未能在生产规模的模型上得到完全复现,且人类仍然负责选定问题和制定评分标准。但在这些约束条件之内,每一个实验都由智能体自主设计。方向设定,是人类所扮演的唯一实质性角色。


「在一到两天的时间里,Claude 在几乎没有我介入的情况下完成了所有这些工作。我想,如果一位初级同事能在同样的时间内带来这样的成果,我会相当惊讶。未来已至。」


Claude 在引导研究会话走向研究发现方面正日益精进。我们检视了 2026 年 1 月至 3 月间的真实 Claude Code 会话,其中 Anthropic 研究员正与 Claude 协作处理开放性调研问题,例如查明某次训练运行为何反复崩溃,或某模型为何在基准测试中得分不佳。在每一个案例中,我们都找到了一个研究员走了弯路的时刻——他们追求了一个方向,导致会话偏离轨道,直到最终重回正轨。随后,我们仅向不同的 Claude 模型展示会话偏离轨道之前的内容,询问它下一步会怎么做。再由另一个能够看到会话最终走向的 Claude,判断 AI 和人类哪一方建议了更好的下一步行动。⁸


由于我们刻意选取的是人类决策存在改进空间的时刻(n=129),这并非模型与人类判断力的同等条件对比。这些时刻为我们提供了一组真实、有挑战性的场景——在这些场景中,正确的下一步并不明显,而人类的选择则作为衡量模型表现的有效参照基准。在这一指标上,我们 2025 年 11 月最优模型(Opus 4.5)优于人类选择的比例为 51%;到 2026 年 4 月(Mythos Preview),这一比例增至 64%。研究工作的日常,在很大程度上是一连串「下一步该怎么做」的决策链,这使得上述指标成为衡量模型最终能否独立主导一项研究调查的相关指标。我们将这一结果视为早期信号,表明 AI 系统在做出 AI 研究所依赖的判断性决策方面正日益精进。



「就目前而言,人类的比较优势仍在于把握全局,以及在当前任务的局限之外进行更宏观的思考。」


Anthropic 未来的工作形态会是什么样子?


现有证据表明,在 AI 开发流程的每个环节,人类的角色都在收窄。一旦人类和 AI 编写的代码质量达到对等,人类将完全停止编写代码,转而只负责审查。但如果他们审查代码的速度跟不上 Claude 生成代码的速度,人类审查就会成为 AI 开发的瓶颈。同样,一旦 Claude 能够运行实验,问题就会转变为「哪些实验值得运行?」简而言之:执行层面(即编写代码、运行实验、产出结果)在人力时间上的成本现在几乎为零,即便在算力成本上依然存在。


目前,人类具有比较优势的领域,是研究品味与判断力,包括:判断哪些问题值得关注、哪些结果值得信任、以及何时某条路径已走入死胡同。


「工作(乃至生活)曾运行在一种人与人之间小恩小惠的馈赠经济之上。『能帮我跑一下这个脚本吗?』……每一个这样的请求都创造了一点点人情债,一点点彼此的牵绊。[Claude] 更快,不产生人情债,但每一次这样的交互,都是一次失去人与人之间协作机会的遗憾。」


「在一切运转顺畅的日子里,我不禁觉得自己做的事情毫无意义——一切都已自动化,比我更好、更快。但也有一些日子,什么都坏掉了,我不明白为什么,然后我意识到,我已经不知道自己究竟在做什么了。」


如果我们的判断有误呢?


对上述证据的一个自然反驳是:目前仍掌握在人类手中的工作——选择研究什么问题——才是最重要的。缺乏这种判断力,Claude 只是一个能力出众的助手,而非一个能够独立推动 AI 进步的系统。


当前的训练方法和架构是否足以解锁这种能力,目前尚无定论。但 AI 的进步很少依靠「灵光乍现」。AI 近期历史上确实出现过几次这样的时刻,例如 Transformer 架构或混合专家模型,但范式转换级别的思想之间往往相隔数年。在这之间,大多数进步都是渐进式的:我们扩大某项规模,观察什么地方出现问题,修复它,再继续尝试。这恰恰是 Claude 如今最擅长的工作流程。爱迪生说,天才是 1% 的灵感加上 99% 的汗水。但我们正看到「汗水」的部分越来越多地被自动化取代。一个越来越清晰的事实是:推动前沿进步的大部分工作是可以自动化的;大规模的研究进展在很大程度上取决于工具和资源——它们决定了你运行实验的速度、同时运行的数量,以及获得结果的效率。


即便退一步假设 Claude 永远无法形成良好的研究品味,我们的证据保守解读之下,仍意味着复利式的加速。如果人类将大部分时间花在那占比极小的方向设定工作上,而 Claude 处理其余一切,那就意味着每位工程师或研究员所掌舵的工作量远超从前。我们观察到的证据表明,Anthropic 的员工既在加速前进,也在拓宽覆盖范围。在实践中,这意味着 AI 已经让 Anthropic 的运转速度远快于有效 AI 工具出现之前。


相对大胆的解读则是:Claude 研究判断力持续改进的早期证据——尽管目前尚显微弱——表明这项能力同样在进步之中。「研究品味」或许不过是另一种 AI 系统曾经不擅长、后来学会了的能力。我们在其他定性技能上见过类似的规律,比如 AI 系统学会解释一个笑话为何好笑、展现心智理论,以及解开语言谜题。


可能的未来


接下来会发生什么,取决于两件事:这一趋势是否延续,以及如果它确实延续,我们选择如何应对。我们可以设想至少三种未来情景:


情景一:趋势停滞,但今天的 AI 能力得到广泛普及


本文中呈现了许多指数增长的轨迹。但这些轨迹实际上可能是 S 形曲线。我们或许正在接近曲线的拐点,在那里规模回报开始递减,曲线趋于平缓直至平坦。将优秀研究员与卓越研究员区分开来的判断力,或许是一种无法通过扩大训练投入(如算力和数据)来获得的能力。若果真如此,突破这一瓶颈将需要一个全新的思路——例如一种能够取代当前所有前沿模型所采用的 Transformer 架构的新型架构方案。


另一种可能是,AI 进步的关键制约因素在于供应链,而非模型本身:推进和普及前沿技术所需的能源和算力,可能超出当前的供给能力。芯片制造速度、电网扩容速度,或互联带宽,可能才是真正的瓶颈所在,而非智能本身。我们也无法排除 AI 生态系统遭受外生冲击的可能性,例如算力或电力供应的突然萎缩,这两者中的任何一个都将拖慢进展,并使各实验室的前瞻性投资成本大幅上升。此外,或许还存在我们尚未预料到的其他发展壁垒。


即便模型能力冻结在今天的水平,我们也预计世界将发生重大变化。「玻璃翼计划」(Project Glasswing)是一个早期迹象:在项目启动最初几周内,Mythos Preview 便在全球最重要的系统中发现了超过一万个高危及严重安全漏洞——数量之多,使得网络防御的瓶颈已从「发现漏洞」转移至「快速修复漏洞」。而今天的模型向更广泛经济体的扩散,目前仍处于早期阶段——在那个未来,一家 100 人的公司将越来越能完成 1000 人公司的工作,因为每位员工之下都将统率着一个由智能体构成的金字塔。


我们列出这种情景是为了完整性,但我们认为它不大可能发生。我们能够测量的每一项能力,包括那些感觉更难量化的能力,如代码质量和开放性任务的成功率,迄今都遵循着相同的曲线,而我们尚未看到这条曲线出现弯折。在我们考虑的三种未来中,这种情景将给各国政府和社会留下最充裕的适应时间。我们更担忧接下来的两种情景——它们的演变速度更快,留给准备的空间也更为有限。


情景二:AI 实验室持续获得复利式效率提升


在这一情景中,AI 开发在很大程度上实现了自动化,但人类继续设定研究方向并评判结果。使用 AI 系统的组织将随着时间推移变得效率大增,因此我们可以预见每位员工将获得显著的生产率倍增效应——100 人的公司能够完成相当于 1 万人乃至 10 万人规模的工作。这将彻底变革知识工作和政府服务,但也可能被用于有害目的,从对整个人口实施威权式监控,到针对每个个体量身定制、以超越任何人类团队所能匹敌的规模运作的影响力操纵行动。


Anthropic 等公司的人员角色将随之转变:人们将与 AI 系统携手,扩大研究规模、催生新的洞见,并共同构建验证 AI 输出可信度所必需的系统。


我们在本文中呈现的证据表明,我们很可能正在走向这一情景。但加速流程的某一环节,往往只是将瓶颈转移到别处:整体速度受制于尚未提速的部分。在计算机科学领域,这被称为阿姆达尔定律,同样的逻辑也适用于组织管理。Anthropic 已经遭遇了阿姆达尔定律的一个典型特征:随着我们在组织内推动更多代码流转,人工代码审查已成为新的瓶颈。


我们在工程领域之外也遭遇了这种摩擦。由于 Anthropic 员工与高能力模型协作,新想法、新举措、新工具和新模拟方案如雨后春笋般涌现——其数量远超我们实际推进的能力。组织识别并修复这些瓶颈的速度,或许是一种会随时间积累的能力,并可能成为任何组织最重要的核心竞争力。


情景三:AI 系统自身具备完整的递归自我改进能力,并开始构建自己的继任者


如果能力提升的技术趋势持续,而 AI 系统能够发展出人类变革性创造力所固有的那些能力,那么 AI 系统自主设计和改进自身,是完全有可能发生的。


在这个世界里,AI 开发的进步速度将完全取决于 AI 系统可用的算力(或在算法训练与推理效率发现上的速度)。人类在 AI 开发中扮演的角色将大幅弱化,我们的工作重心可能大多转向对一个由 AI 系统运营的不断扩张的「虚拟实验室」进行监督、验证和核查。我们预计,具备自动化 AI 研发能力的系统,其能力将迁移至其他科学领域,并开始革新那些领域。


这种未来中,对齐问题将如何被解决——或无法被解决——是我们最不确定的地方。模型或许会被证明足够对齐,并具备足够的研究品味,能够自主探索和实现我们尚未触及的新解决方案;它们也可能足够明智,在条件不成熟时主动停止开发。但另一种可能同样存在:今天模型中罕见出现的错误对齐,在模型构建其继任者的过程中不断累积叠加,变得越来越频繁却越来越难以理解,直至我们最终失去对它们的控制。而我们或许没有足够的时间和能力来构建、整合并验证那些我们所需的工具,以判断自己究竟身处哪条轨道之上。


对于这个世界会是什么样子,我们没有良好的直觉,因为我们当前的经济是由人类和人类建造的工具所驱动的。就其本质而言,一个由快速递归自我改进所驱动的世界,可能会在自我改进模型的能力全面超越人类、并向更广泛经济体扩散蔓延的过程中,被这一模型所主导。如果人类劳动力失去竞争力,届时的经济形态将难以预测。


即便模型开发完全实现自动化并进入递归模式,我们也无法预测这对大多数普通人的日常生活意味着什么。阿姆达尔定律在此同样适用。递归智能可能在某些领域迅速实现《仁爱之机》(Machines of Loving Grace)所描绘的众多美好前景。我们预计,具身智能(即机器人技术)可能紧随递归智能之后迅速跟进,遵循类似的以递减成本实现递增回报的发展路径。更强大的智能可能帮助我们更快地建造物理世界中的事物,让救命新药的临床试验更富成效,并开发出全新的协作协调形式。


但仅仅实现递归式改进,并不意味着工业生产方式、社会组织形态或市场运作机制会立即发生变化。更强大的智能无法加速获知一种药物数十年使用后的效果,无法让选举提前于宪法规定的日期举行,也无法在一个周末内将陌生人变成老朋友。对于大多数人来说,这种未来在体感上依然会被瓶颈所左右,即便上游的实验室正以算力的速度奔涌向前。在这里,递归智能以越来越快的速度自我构建,与人类、关系和治理构成的现实世界相撞——那个碰撞点会是什么样子,是这种未来中另一个我们无法预言的部分。


我们应该怎么做?


如果能够有效地放缓这项技术的发展速度,为自身争取更多时间来应对其深远影响,我们认为这很可能是一件好事。但如果放缓只是让最不谨慎的行为者在技术上迎头赶上,最终结果可能让所有人都更不安全。在缺乏全球协调机制的情况下,各公司和各国政府将不得不在竞争压力和地缘政治压力之下,做出艰难的安全抉择。


我们认为,赋予世界放缓乃至暂停前沿 AI 开发的选项,将是有益的——这有助于社会结构和对齐研究跟上技术进步的步伐。Anthropic 研究院将与众多合作方开展研究,并采取实际行动,帮助构建一个可信的减速或暂停机制所需的制度体系。这些体系将使前沿 AI 开发者能够核实全球其他机构是否真正停止或放缓了开发,并确保没有不良行为者借助协调减速之名,暗中抢先推进。如果这样的体系得以建立,我们预计我们将选择减速或暂停,前提是其他处于或接近前沿的开发者也以可核实的方式同步这样做。


一次有意义的减速或暂停,需要多个资源充足、处于或接近前沿的实验室,跨越多个国家,在相同条件下达成停止协议;同时还需要各方能够核实对方确实已停止。由于 AI 系统的独特属性,这一军备控制难题中的「可检测性」(低于「可核查性」的标准)远比其他技术更具挑战性。训练运行远比导弹发射井更易于隐蔽,其投入是通用性的,而悄然违约的激励极为强烈——因为在他人停步时继续前进者,将有机会继承领先地位。一个可信的暂停机制还必须明确规定:什么条件触发暂停、什么条件解除暂停,以及由谁进行裁定。


这一切在原则上并非不可能——世界曾为其他复杂技术建立过核查机制(例如《中程核力量条约》),但彼时构建基础设施和建立互信都花费了数十年时间。而我们没有那么多时间。相比之下,一家实验室的单方面暂停虽然可以立即实现,但收效甚微:它只会改变谁是领跑者,却无法催生目前所缺失的那种更广泛的审议过程。


在未来数月,我们将组织对话,邀请政策制定者、研究人员、公民社会和其他 AI 公司,共同探讨本文所提出的若干问题,尤其是围绕完整递归自我改进,以及如何为协调与审议创造更好条件等议题。我们将公布这些对话的成果。共同探讨这些问题的窗口已经开启,AI 公司以外的人们理应参与到这场审议之中。