担心AI自我进化,Anthropic打算停止训练?

Favoritecollect
Shareshare

2026 年 5 月 4 日,Anthropic 联合创始人 Jack Clark 在社交平台 X 上发了一条帖文。原话是:“我现在相信,递归自我改进在 2028 年底之前发生的概率是 60%。”

帖子发出去没几分钟,AI 安全领域一位长期活跃的研究者 Eliezer Yudkowsky 在下面回复了一句:“那我们将一起灭亡”他紧接着引用了一个类比,指向切尔诺贝利核反应堆 RBMK 的设计缺陷,暗示这个正在被启动的系统没有人真正知道如何停下来。

这段在几十秒之间完成的对话,像一根火柴划亮了之前一直藏在技术论文和内部评估里的讨论。递归自我改进(Recursive Self-Improvement,RSI),即 AI 系统不仅优化输出,还能自主优化改进过程本身、最终构建出比自己更强的后继系统,这个曾被长期搁置在理论边缘的概念,被 Anthropic 的联合创始人放进了 2028 年底前 60% 概率的倒计时钟里。

一个月后,Anthropic 官方发布了一篇长文。标题叫《When AI builds itself》。文章由 Marina Favaro 和 Jack Clark 联合撰写,由 3 月刚刚成立的 Anthropic Institute 发布。用一串此前未公开的内部数据和一个精心校准的叙事结构,Anthropic 向外界递出了一张刻度精确的加速信号卡。这张卡上既写了“我们还没有到达那里”,又写了“但它可能比大多数机构准备得更快到来”。

同一个月,DeepMind CEO Demis Hassabis 在 Google I/O 舞台上用了一个从未在公开场合出现过的措辞:人类正站在“奇点的山麓”。他在随后的采访中将通用人工智能(AGI)时间线从“2030 年之后不久”调整为“2029 年是一个真实可能性”,并坦承自己使用戏剧性语言是“有意挑衅”,目的是对政府、经济学家和公众制造紧迫感。

两家以安全立身、长期充当 AI 行业克制力量的头号机构,几乎同一时间调整了对外发声的音量和刻度。这个时间点本身,就需要被当作一个独立事件来审视。

一篇被精密校准过的长文

Anthropic 在 6 月 4 日发布的长文一开头就亮出了自己的叙事目标。它要论证的不仅是一个技术趋势,而是一个有方向、有加速度的进程。为此,它铺开了一组此前从未公开的内部数据。

image

第一组数字指向一个结构性变化:截至 2026 年 5 月,Anthropic 代码库中超过 80% 的合并代码由 Claude 撰写。放到两年前,这个数字是低个位数。同一份数据还显示,2026 年第二季度,Anthropic 的典型工程师每天合并代码量是 2024 年的 8 倍。

可以想象任何一个没有跟踪 AI 行业深度的人第一次读到这两个数字的反应。但 Anthropic 自己在脚注里承认了几个重要的限定条件:领导层曾公开估计,如果算上脚本和实验代码,Claude 撰写的代码占比超过 90%,80% 是一个更保守的合并代码统计口径;代码行数“是不完美的度量”,可能高估了真实的生产力提升;代码归因管道本身“有缺口”。

这些脚注的写法本身是值得分析的。它们的存在表面上是诚实地让步,但实际上起到的作用是让正文中的数字显得经过了审慎的自我过滤,从而获得了更强的可信度。这是一种叙事工程上的双层结构:正文放信号,脚注放免责声明。

第二组数字涉及速度。代码优化任务上,Claude Opus 4 在 2025 年 5 月实现了约 3 倍的加速效果,人类熟练研究员需要 4 到 8 小时才能达到类似水平。到了 2026 年 4 月,Claude Mythos Preview 将这个数字推到了约 52 倍。AI 可独立完成任务的最长时长也从 2024 年 3 月的 4 分钟,每 4 个月翻一番,到 2026 年 3 月达到 12 小时。从 4 个月翻一番这个速度本身,就构成了一个极易被传播的、带有几何级数想象的记忆点。

image

另一组数据来自 2026 年 3 月对 130 名 Anthropic 研究团队员工的内部调查。中位数受访者估计,使用 Mythos Preview 的产出约为不使用 AI 时的 4 倍。脚注再次指出,METR 此前的独立研究表明开发者对 AI 生产力提升的估计可能总体偏高。同样的双层结构再次出现。

第三组数字指向 AI 正在逼近人类研究员的判断力边界。2025 年 11 月,Claude Opus 4.5 在研究方向选择上,有 51% 的情况下优于人类研究员的选择。到了 2026 年 4 月,这个数字上升到 64%。样本量 129 个案例,Anthropic 在脚注中说明这些案例是人刻意挑选的、人类选择有改进空间的时刻。

单独拎出任何一个数字,都可以被放进不同的解释框架。但放在一起,方向是一致的:速度在加快,差距在收窄,并且这一切发生在 Anthropic 自己的代码库和实验室内部,不是某个外部基准上的理论推演。

长文在列出这些数据之后,摆出了三种未来场景。

第一种是趋势停滞,进入 S 曲线平台期。Anthropic 的表述是“我们不相信这很可能”。

第二种是复合效率提升,AI 在更广泛的研发环节持续替代人类,但人类仍然设定方向、定义成功标准。Anthropic 评价为“证据表明我们很可能正走向这种场景”。

第三种是完全递归自我改进,AI 自主设计、训练和部署比自身更强大的后继系统,人类不再站在循环中。措辞是“有可能”。

这三种场景的排列顺序和语气分配构成了一道完整的叙事梯度。第一种被轻放,起到了收纳怀疑论者的功能;第二种被锚定在“证据”上,赋予文章理性的外衣;第三种通过“有可能”和有条件的“如果技术趋势持续”,把最大胆的假设推到了读者想象力的边缘,却不需为它承担举证责任。

image

在整篇文章的最核心处,Anthropic 的态度被压缩进了一句话:“我们还没有到达那里,递归自我改进也并非不可避免。但它可能比大多数机构准备得更快到来。”

从“愿暂停”到“单方面暂停只会让鲁莽者追上”

如果说 6 月 4 日长文是一张精心构图的快照,那么把这张快照放进时间轴里,能看到一条更长的轨迹。

2023 年,Anthropic 发布了负责任扩展政策(RSP)。这份政策文件的核心承诺是:如果模型的能力超出公司的安全控制能力,公司将暂停训练更强的模型。这不是口头的表态,而是一份有评估框架、有触发条件的内部治理文件。这份文件一度被 AI 安全界视为“自愿性监管”的可操作样本。

2024 年,CEO Dario Amodei 发表了一篇广泛流传的文章,提出“powerful AI”将在 2027 年到来的可能性。彼时,Anthropic 仍然以安全派的独立姿态示人,对规模化扩张和加速叙事保持着一张克制的面孔。

2026 年 1 月 26 日,Amodei 在个人网站发布了一篇 38 页的长文《The Adolescence of Technology》。文中写下了一个此后被反复引用的判断:“因为 AI 现在正在撰写 Anthropic 内部的大部分代码,它已经在实质性地加速我们构建下一代 AI 系统的进度。这个反馈循环正在逐月积蓄力量,可能距离当前一代 AI 自主构建下一代系统只剩下 1 到 2 年的时间。”在同一篇文章中,他将即将到来的“powerful AI”描述为“数据中心里的天才国家”。

这几乎是 Anthropic 开始系统性释放“自我改进反馈循环正在发生”这一信号的起点。而这篇博文发布的时机,正好处在公司从 3500 亿美元估值跃向更高估值区间的通道上。

不到一个月之后,转折来了。

2026 年 2 月 25 日,CNN 报道,Anthropic 修改了它的负责任扩展政策,移除了“若能力超出安全控制能力则暂停训练更强模型”的核心承诺,代之以一个非约束性的“前沿安全路线图”。同周,美国国防部长 Pete Hegseth 向 Dario Amodei 发出了最后通牒:撤回安全红线,或失去 2 亿美元的国防部合同。

报道引述了 Anthropic 首席科学官 Jared Kaplan 向《时代》杂志的回应:“我们认为停止训练模型实际上对任何人都没有帮助……如果竞争对手正在全力冲刺。”这份回应中的措辞非常值得留意。“对任何人都没有帮助”不是技术论证,而是一个利益相关者博弈的表述。“如果竞争对手正在全速冲刺”则在叙事架构上和“单方面暂停只会让最不谨慎的参与者追上”完全同构:它把原来以自身安全能力为参照系的暂停逻辑,替换为以竞争对手行动为参照系的速度逻辑。

Anthropic 仍在 CNN 报道中强调保留了两条红线:不把 AI 系统用于控制武器系统,不用于大规模国内监控。这一点很重要,因为它表明 Anthropic 并非全盘放弃安全立场,而是在不同安全维度上做出了有选择性的退让和坚守。但这种选择性本身也恰恰是叙事策略分析中的一个核心线索:它在哪些方面退让了,在哪些方面守住了,这个边界刻画了安全被重新校准的刻度。

3 月 11 日,Anthropic Institute 正式成立,由 Jack Clark 领导,定位为“公共利益研究机构”。不到两个月后的 5 月 4 日,Clark 发出了那条“60%”的帖文。

这个时间序列一旦被并置,信号密度和释放节奏都不是随机的。从 1 月的个人文章预告,到 2 月的政策修改,到 3 月的机构成立,到 5 月的创始人概率预测,再到 6 月的官方长文发布,这是一条节奏清晰、措辞逐步升级的叙事管线。不能由此直接推导出“这一切都是提前策划好的”,但这个序列本身构成了一个分析师必须面对的问题:这种节奏感是否说明,Anthropic 已经将“加速叙事”纳入了它的公共传播管理范畴?

哈萨比斯的有意挑衅

如果在 2026 年上半年只有 Anthropic 一家在调整口径,分析师有足够的理由将注意力集中在企业内部的决策逻辑上。但 DeepMind CEO Demis Hassabis 几乎同步做出了方向一致的调整,使得“单一企业个案”的说法站不住脚了。

1 月 20 日,达沃斯论坛。Hassabis 仍然维持着他多年来一贯的判断:AGI 在 2030 年有 50% 的概率。3 周后的 2 月 18 日,在印度 AI 影响力峰会上,他松了口:“AGI 可能在五年内到来。”

5 月 20 日至 22 日,Google I/O。Hassabis 在主题演讲中说,人类正站在“奇点的山麓”。同一时期,OpenAI 发布了 GPT-5.3-Codex,称该模型“在创建自身过程中发挥了关键作用”,具体包括辅助调试训练过程、管理部署、分析评估结果。三家头部实验室在这个时间窗内的步调差被压缩到以周计算。

Google I/O 之后,Hassabis 接受了 Axios 的采访。这段采访在后来被大量引用,其中最关键的一句是,他承认使用“奇点的山麓”这类语言是“有意挑衅”,目的是激起政府、经济学家和公众对 AI 加速发展紧迫性的认知。他还将 AGI 时间线从此前“2030 年之后不久”调整为“2029 年是一个真实可能性”,尽管仍广泛预期在 2030 年,正负一年。

Hassabis 对《首尔经济日报》说得更直接:“五到十年后,当我们回顾 2026 和 2027 年时,我们会说‘那就是我们进入 AGI 时代的时刻’。”

“有意挑衅”这个词值得反复掂量。它是一个罕见的、由当事人亲口说出来的对叙事意图的坦白。它承认,他所使用的至少一部分措辞,不是对技术事实的被动反映,而是主动选择的传播工具。这个坦白本身并不否定他可能也真的看到了技术拐点,但它明确地把“叙事”从“事实”的阴影里拎了出来,让它成为一个可以被单独审视的客体。

Hassabis 对自己措辞的自我解释,打开了解读这轮同步信号的一扇侧门。他的“有意挑衅”和 Anthropic 长篇数据论证中的“脚注免责”表现出了同一种两栖姿态:一手推送足以震撼舆论的信号,另一手保留退回到“这只是一部分可能性”的安全空间。

同一组数据,完全不同的解释

当 Anthropic 和 DeepMind 共同构建起一个“AI 正在加速自我进化”的叙事框架时,外部独立研究者提供了对同一组数据和现象的另类解读。这些解读之所以重要,不是因为有哪一方掌握了终极真相,而是因为它们暴露了官方叙事本身的可解释性区间有多大。

最尖锐的回应来自 Eliezer Yudkowsky。他不仅回复了 Jack Clark,还在后续多个场合持续发声。MindStudio 的博客记录了他的完整态度:他用切尔诺贝利 RBMK 反应堆来类比当前 AI 系统的安全设计。这个类比的核心论点是,如果控制杆和加速器绑在同一个系统中,当你试图减速时,系统实际上会更快失控。

Allen Institute for AI 的 Nathan Lambert 提出了“有损自我改进”(Lossy Self-Improvement,LSI)这一概念。他的论点构成对“加速飞轮”模型的直接挑战:当系统变得越来越复杂时,每一代的改进过程都会产生摩擦和损耗,就像信号在长距离传输中会衰减一样。根据这个逻辑,那些让 80% 或 90% 代码由 AI 撰写成为可能的改进,并不能无限复制到下一代系统上,因为下一代会面临更复杂的问题空间,而 AI 本身产出中的噪声和误差将在代际传递中被放大。

Foundation for American Innovation 的高级研究员 Dean Ball 提供了一个更直接的语言框架,把 Anthropic 的数据降了维。他对 IEEE Spectrum 说:“也许最终他们会自动化天才,但不是明年。明年他们自动化的是苦力。”这个区分切中了“80% 代码由 AI 撰写”的核心歧义。如果 AI 自动化的是代码库中的固定模式部分,是参数的批量生成,是端到端的管道配置,那么这些工作在软件工程语境中的确只对应“苦力”。剩下的 20%,则可能包含了架构设计、方向判断、基于不完整信息的权衡,这些才是天才部分。

蒙特利尔大学的 David Scott Krueger 作为 AI 安全非营利组织 Evitable 的创始人,他提出的暂停触发红线是“99% 代码由 AI 编写”。他对 IEEE Spectrum 表示:“我认为我们现在可能正在跨越这条线。”他的框架和 Anthropic 自己已经松动了的暂停承诺形成的张力,正是这轮叙事中最重要的结构矛盾之一。

UBC 计算机科学家 Jeff Clune 在接受 IEEE Spectrum 采访时则站在另一个方向上。他说:“我们正处在递归自我改进系统的拐点上。”他的这句话如果真的被验证,意味着 Yudkowsky 的警钟被敲对了节拍。

四组声音,方向各不相同,甚至在同一方向上还有激进派的内部拉扯。但它们的共同点在于,它们都没有依赖官方的叙事框架,而是各自从自身的方法论出发,对同一组现象给出了独立的判断。而这些判断的多样性和相互冲突本身,就是对“任何一个单一叙事足够覆盖全部真相”的最有力反驳。

估值曲线与叙事节拍的耦合

2026 年 1 月,Anthropic 完成融资,估值 3500 亿美元。投资方包括微软和英伟达。这个数字在 2025 年底就已经被部分媒体预热过,但正式落地的时点正好在 Amodei 发布《The Adolescence of Technology》之后。

2 月,又一轮融资 300 亿美元完成,估值维持在大约 3500 亿美元的区间。同月,安全政策修改,移除暂停承诺。五角大楼的 2 亿美元合同威胁落下。

5 月,Reuters、纽约时报和 TechCrunch 几乎同时报道,Anthropic 完成了一轮 650 亿美元的融资,估值达到 9650 亿美元。这个数字不但超过了自己两个月前的估值,也超越了 OpenAI 在 2026 年 3 月的 8520 亿美元估值。纽约时报另外援引 Dario Amodei 在开发者大会上的说法,称公司年化收入达到 300 亿美元,他本人甚至开玩笑说“希望今年 80 倍的收入增长不要继续,因为那样太疯狂了”。

6 月 4 日,Anthropic Institute 发布《When AI builds itself》长文。

把这些时间节点一字排开并不是暗示存在一个图表上的精确箭头指向。如果有人说,这些东西之间存在因果关系,必须提供直接证据。在没有内部决策记录的前提下,任何分析师都无法也不应该做出这种断言。

但另一面,完全不观察和记录这些时间节点的对应关系,同样是不合理的。一家企业在短短 5 个月内,从 3500 亿美元估值攀升至 9650 亿美元,翻了近三倍,同时经历了一次重大的安全政策转向,同时构建了一个由独立研究机构主导的“加速信号”叙事管线,同时其联合创始人给出了 60% 概率的预测。当所有这些事件密集地压缩在 6 个月之内完成时,投资者至少有权利追问:这些信号释放是否、以及在多大程度上承担了向市场传递“我们身处加速前沿”这一信息的功能?

这个追问本身就是分析的价值所在。答案可能永远不止一个。但问题一旦被清晰地提出,就不会再被轻易收回。

全球人工智能市场的融资在 2026 年第一季度达到了 2970 亿美元,前五大交易占据了这个总额中的显著份额。在这个水位下,所有前沿实验室都面临着同样的压力:你需要说服投资者,你的技术曲线将比对手更陡。你的风险警告也要足够响亮,以便当监管者最终入场制定规则时,你的声音被提前内置到政策框架之中。你的叙事,还要同时足够有吸引力让顶尖研究者选择你的实验室,足够让人警觉以维持你在安全社区中残存的话语基础。

这些需求之间是有内在矛盾的。Anthropic 在 2026 年上半年的叙事调整,可以被看作是在重新校准这些相互矛盾的需求在语言层面上的平衡点。安全承诺的弱化、加速信号的强化、以及对“我们不能单方面停下”这一论据的反复使用,共同构成了一组指向同一个方向的向量。

信号发出去了,然后

需要回到最核心的那个问题上:这些信号,到底更像是技术拐点的反映,还是面向资本与监管的修辞升级?

现有的公开证据不允许在两个选项之间简单地划一个勾。因为两种解释所用的证据,事实上是同一组数据。80% 的代码占比、52 倍的加速效果、每 4 个月翻番的任务时长,既可以用来支持“拐点正在到来”,也可以用来解释“我们正在向市场传递一个我们自己的技术人员已经亲身体验到了的趋势感知”,这两者之间的边界是模糊的。

但有一些事实是确定的,不需要在两种解释中选边站队。

第一,Anthropic 在 2026 年上半年完成的叙事转向不是孤例。DeepMind 的 Hassabis 几乎在同一季度做出了方向一致、程度不同但本质相同的调整,OpenAI 的 Sam Altman 在印度峰会上说“世界还没有准备好”,并在 2026 年 2 月发布了声称“在创建自身过程中发挥了关键作用”的 GPT-5.3-Codex。如果这只是 Anthropic 一家在释放信号,也许可以从企业策略的角度做分析。但三家前排实验室在密集的几个月内同时提高声量,这就构成了行业层面的叙事转向。

第二,这些信号释放的节奏和融资、政策调整、机构重组的节拍之间存在可以被精确追踪的时间对应关系。这种对应本身不需要证明任何事,它只需要被诚实地呈现。呈现之后,每个人自带的方法论会决定他接下来怎么想。

第三,Anthropic 自己为第三种场景,也即“完全递归自我改进”,标注的状态仍然是“有可能”,而不是“很可能”。这意味着在这家发布这些数据的公司自己的内部判断框架里,他们的加速叙事还没有完全闭合。那些让他们在学术论文和博客写作中习惯性地加入限定词的力量,仍然在拉住他们公开措辞的缰绳。

第四,Hassabis 的“有意挑衅”自白,确证了一个此前虽然被广泛怀疑但很少由当事人亲口说出的机制:至少部分前沿实验室的领导人在选择措辞时,怀着明确的传播目的。这使得所有对他们的声明的解读,必须同时包含两个层面的分析对象,即他们声称的事实,和他们在选择这些声称时所采用的修辞策略本身作为一个行为事件。

那些认真阅读了 Anthropic 通篇数据的人,和那些只记住了“80% 代码由 AI 撰写”和“52 倍加速”这两个数字的人,接收到的信号强度完全不同。但在这件事情上,“被如何记住”也许比“实际说了什么”更应该被当作分析对象。

这篇长文本身,就是它自己在描述的那种现象的一个精确样本。它用数据构建了一种迫在眼前的加速感,又用脚注和限定词保留了后退的余地;它呼吁全球协调和可验证的放缓,却在此前的政策修改中已经撤下了暂停承诺。这并非虚伪,也不是简单的言行不一。这是一个机构在技术不确定性、商业压力和公共责任之间的叙事平衡术。而 Hassabis 的“有意挑衅”自白,恰好从侧门证实了这种平衡术在头部实验室中已是一种被自觉使用的方法。

Disclaimer: This article is copyrighted by the original author and does not represent MyToken’s views and positions. If you have any questions regarding content or copyright, please contact us.(www.mytokencap.com)contact
More exciting content is available on
X(https://x.com/MyTokencap)
or join the community to learn more:MyToken-English Telegram Group
https://t.me/mytokenGroup