视频标题:Anthropic's hunt to find the next Claude Code
视频作者:ACCESS Podcast
编译:Peggy,BlockBeats
编者按:在大模型能力持续跃迁、AI 编程工具快速普及的背景下,行业讨论正在从「模型能否完成任务」转向「模型能力如何被组织成产品、工作流和商业系统」。
过去一年,Claude Code、Codex、Co-work 等产品相继进入开发者和知识工作者场景,AI 不再只是一个回答问题的聊天框,而开始成为可以调用工具、执行任务、验证结果的生产接口。但当「agent 会成为下一代软件形态」逐渐成为共识,一个更关键的问题开始浮现:谁能率先把模型能力转化为可复用、可分发、可规模化的工作系统?
本文整理自 ACCESS Podcast 对 Mike Krieger 的访谈。Mike Krieger 是 Instagram 联合创始人,目前是 Anthropic 的首席产品官,负责 Anthropic Labs,旨在带领团队探索 Claude Code 之后 Anthropic 的下一批前沿产品方向。

Alex Heath(左)和 Mike Krieger(右)
在这场对谈中,Mike Krieger 并不是单纯讨论 Anthropic 下一个产品会是什么,而是将 AI 产品竞争拆解为一组更底层的结构性问题:模型能力如何进入真实工作流,AI 公司内部如何组织创新,平台公司如何处理与生态客户的边界,以及当 AI 执行能力越来越强,人类判断力在生产链条中将被重新放在哪里。
第一,是产品形态从「聊天」转向「任务」。过去,大模型主要以对话框形式存在,用户输入 prompt,模型生成回答;现在,Claude Code、Co-work、Claude Design 代表的是另一种产品逻辑:让 AI 围绕一个目标持续推进工作,并在过程中调用工具、生成结果、进行验证。这意味着,AI 产品的关键不再只是回答质量,而是任务拆解、上下文连续性、工具调用和结果校验能力。谁能把这些能力封装成顺滑的工作流,谁就更接近下一代生产力入口。
第二,是组织方法从「大团队规划」转向「小团队试错」。Anthropic Labs 的运转方式,更像一个嵌入大公司内部的创业单元:两三个人起步,两周一次评审,用高频反馈判断项目是否继续推进。过去,大公司创新实验室容易陷入周期过长、责任模糊和「还可以」的项目被拖延;现在,模型降低了构建成本,真正稀缺的反而是判断力、品味和决策速度。这意味着,AI 时代的组织效率不只取决于工程人数,而取决于能否用更小团队更快验证方向。
第三,是平台与应用的边界正在重新划定。Claude Code 的成功让 Anthropic 不再只是模型供应商,也开始亲自定义应用形态;Claude Design 与 Figma 的争议,则显示模型公司下场做应用会不可避免地触碰客户和生态伙伴的利益。过去,基础模型公司更多提供底层能力,由 Cursor、Figma 等垂直应用完成用户界面和场景封装;现在,模型公司也需要通过自有产品展示 agent-first 的未来形态。这意味着,AI 平台竞争不仅是 API 竞争,也是产品范式竞争。
第四,是 AI 越强,人类判断越稀缺。Mike 反复强调,Claude 可以更快写代码、生成原型、执行任务,但它无法替代从 0 到 1 过程中最困难的部分:提出正确问题、理解真实用户、定义产品北极星,以及判断什么才是「对的」。过去,执行能力是知识工作的主要瓶颈;现在,执行正在被模型加速,人的价值更集中在前置判断、创造力、关系网络和组织能力上。AI 不会自动消除艰难决策,反而会让错误方向被更快放大。
如果将这场对谈压缩为一个判断,那就是:Claude Code 之后,Anthropic 要寻找的不是单一爆款产品,而是一套让 AI 从模型能力转化为生产系统的方法。在这个意义上,本文讨论的对象,已经不只是 Anthropic 的下一步产品路线,而是整个 AI 行业从「模型竞赛」进入「系统竞赛」的结构性转折。
以下为原文内容(为便于阅读理解,原内容有所整编):
TL;DR
·AI 产品竞争已从「模型更强」转向「能力如何落地」,本质是大模型公司开始争夺工作流入口。
·Claude Code 的意义不只是写代码,而是证明了 agent 可以在明确目标下持续执行任务,推动 AI 从聊天工具变·成生产系统。
·Anthropic Labs 的核心价值不在发布多少产品,而在用小团队快速验证模型下一步应该具备什么能力。
·Co-work 代表 Anthropic 想把 Claude Code 的方法论扩展到非程序员,本质是把「编程能力」抽象成普通人的工作自动化能力。
·OpenAI Codex 的追赶让 Claude 的优势不再只是技术领先,而取决于 Anthropic 能否把 Claude Code、Co-work、Claude.ai 整合成统一体验。
·模型公司亲自下场做应用会加剧与客户的边界冲突,但这也是它们定义下一代 AI 产品形态的必然路径。
·AI 越能快速执行,人的价值越集中在前置判断、产品品味和问题定义上,因为错误方向也会被 AI 更快放大。
·AI 对就业的冲击不是单一公司能解决的问题,本质上会迫使社会重新讨论技能重塑、分配机制与人类不可替代能力。
原文内容
Alex Heath(主持人):Claude Code 之后,Anthropic 的下一个大产品会是什么?本周节目,我们请到了 Mike Krieger。他是 Instagram 联合创始人,现在负责 Anthropic 内部做「登月项目」的团队。
Mike Krieger(Anthropic 首席产品官):
我在 Anthropic 任职期间最黑暗的一天之一,就是把它命名为 3.5 v2。至于我们为什么最后会取这个名字,我可以解释。
Alex Heath:我和 Mike 是在旧金山 Anthropic 最近举办的 Claude Code 大会期间,线下录制了这场对话。那次大会上,Anthropic 宣布与 Elon Musk 达成了一项新的大型算力合作。所以,你们现在算是要和 Elon 一起上太空了?
Mike Krieger:完全正确。是的,我们正在寻找新的、甚至有些意想不到的算力来源。
Alex Heath:我们聊到了 Mike 现在正在做什么,Anthropic 与 OpenAI 之间激烈的竞争,以及 Mike 认为,即便 AI 变得越来越强,人类工作中哪些部分依然会继续重要。
这里是《Access》。
Mike,很高兴在旧金山的 Claude Code 大会上见到你。我刚才还在回想我们上一次对话。那时候你刚接手 Labs 没多久,但现在已经过去几个月了吧?
Mike Krieger:是的,差不多快四个月了。
Labs 如何运转:两周一次淘汰,用小团队验证大产品
Alex Heath:差不多四个月。对于不了解 Labs 的人,我想从这里开始。因为这是一个挺特别的组织架构。几个月前我去你们办公室的时候,我们也聊过这个。Labs 到底是什么?它在 Anthropic 内部的使命是什么?
Mike Krieger:简单来说,我对 Labs 的理解是——现在这个版本,我会称之为 Labs v2。我们也可以之后再展开讲 Labs v1 做过什么,以及 Labs v2 想做什么。
但我认为 Labs 主要做两件事。
第一,是缩小 Claude 理论能力与普通人日常使用体验之间的差距。也就是说,Claude 在理论上能做很多事情,但这些能力如何真正进入人们的日常工作和生活?我们要做哪些产品、原型或项目,才能展示如何释放更多这种潜力,如何把这中间的差距尽可能缩小?
第二,我们更像是一支「前沿侦察队」,去判断模型未来需要往哪个方向演进,才能满足不同用户的需求。
所以,一个成功的 Labs 项目,不一定是最终发布成产品。它也可能是一个原型。我们做出来之后发现:模型目前还不够好,暂时无法完成这个任务。那我们就把它先放到一边,等下一代模型发布时再重新评估,或者把它变成未来模型开发中的一个评测指标,然后继续迭代。
因此,和纯产品公司的产品实验室不同,那里衡量成功的标准可能是「你有没有发布一个产品」。但在 Anthropic,Labs 的价值还可以体现在其他方面:它可以影响 Anthropic 未来的方向。
Alex Heath:Labs 确实做出过一些爆款,对吧?Claude Code 是其中之一,MCP 也是。还有哪些?
Mike Krieger:Agent Skills 也是 Labs 做出的一个很重要的东西。另外我还可以讲一个当时没有发布、但对研究非常有帮助的项目:computer use,也就是让 Claude 使用电脑。
我是在 2024 年 5 月加入 Anthropic 的。下周就是我加入两周年,我们内部叫「antiversary」。
Alex Heath:是 anniversary 吗?
Mike Krieger:是 antiversary。Anthropic 里面什么都要和 ant 扯上关系。一开始我还挺抗拒的。我们也不说 dogfood,而是说 antfood。
我加入后,我们开始搭建 Labs。当时最早被提出来的项目之一就是:为什么不试试看,让 Claude 来使用一台电脑?
Alex Heath:也就是 computer use。
Mike Krieger:对。
Alex Heath:那是什么模型时代?
Mike Krieger:那是 Claude Sonnet 3.5。那也是我参与发布的第一代模型。我加入第三周就开始做这个发布。我们经常开玩笑说,Anthropic 没有所谓 onboarding 项目,它会直接把一个很难的项目丢给你。而我就是第三周直接参与发布。
Sonnet 3.5 是一个很有意思的模型,因为它是最早真正解锁部分编程场景的模型之一。还不到完整 agentic coding 的程度,但已经能看到一些苗头。
所以,我们把 Sonnet 3.5 放进来,围绕它做了一个 computer use 产品。但它有很多问题。比如它使用电脑的速度太慢,准确度也不够高,视觉能力也不够好。它会看到屏幕,然后说「我需要点击那个按钮」,结果实际点到了别的地方。
但搭建这个「不完全可用」的测试框架本身非常有帮助。因为后来当我们做到 Sonnet 3.5 v2 的时候——这个命名可以以后再展开讲,那真的是我在 Anthropic 最黑暗的一天之一——我们就可以把新模型放进这个框架里测试。
后来我们又试了 3.6,还是不够好,但已经有一点起色。再到 3.7,我对那一天印象非常深。当时我在纽约出差,去见纽约团队。突然有人发消息给我说:我们觉得之前 Labs 做的那个东西,也就是当时已经放了九个月的 computer use 项目,在 Sonnet 3.7 上真的开始展现生命迹象了。我们认为,是时候把 computer use 作为一项能力,对外开放并公开讨论了。
这中间大概经历了九个月。我们每隔几个月就把新模型放进同一个测试框架里试一次。即便 Labs 当时已经把这个项目暂时放下了,它仍然非常有用,因为它成了评估模型中 computer use 能力演进的一套测试集。
Alex Heath:你刚加入 Anthropic 的时候,是首席产品官。我记得当时我还想了一下:Mike Krieger,这个 Instagram 联合创始人,在我印象里是非常偏消费者产品的创始人,怎么会加入一家企业级 AI 公司?
Mike Krieger:是的。
Alex Heath:我们当时可能也聊过这个。我当时觉得,这是一个很有意思的选择。事后看,这是一个正确的选择。当然,时机也非常好。
我很好奇,你一开始是作为 CPO 加入,负责整个产品线。而「AI 产品」这个概念本身就有点模糊,而且变化很快。你是怎么在大概四五个月前转到 Labs 的?据我了解,你现在更像是一个 IC,也就是个人贡献者?你现在还管人吗?
Mike Krieger:我现在不管人。我们刚好要进入绩效评估周期了。
Alex Heath:所以这就是你想要的,对吧?你是为了逃离写绩效评估?
Mike Krieger:没错。我打开系统,看自己要写哪些评估,结果发现:你只需要写自己的自评,以及对你经理的评价。
Alex Heath:就这些?
Mike Krieger:就这些。
Alex Heath:现在都是 Claude 来写绩效评估了。
Mike Krieger:Claude 确实会帮忙写一些评估,这挺有用的。它不会替你全部写完,但至少可以帮你回忆:过去六个月我到底做了什么?
我觉得公司经历过不同阶段,不同阶段对我真正有热情的事情,匹配程度是不一样的。
我刚加入的时候,整个产品和工程团队大概只有 30 个人,也许产品和工程各占一半。我们当然也有一些工程团队在做研究基础设施、可扩展性等工作,但如果只看真正围绕产品构建的人,当时主要就是 Claude.ai 和我们那时还叫 API 的东西——当时甚至还没有叫 Claude Platform——总共可能也就 30 到 35 个人,非常非常小。
那时它仍然很像一家早期创业公司,很多事情都还在定义阶段。比如「这个产品到底是什么」还远没有成形。当时的 Claude.ai 没有 Projects,没有 Artifacts,基本上就是你和 Claude 的一串对话列表,上面几乎没有额外功能。
所以,那时加入 Anthropic 的感觉,很像加入一家正在寻找产品形态的创业公司。当然,它已经有顺风了。
Alex Heath:你加入的时候,Claude 3 系列已经发布了,对吧?包括 Opus、Sonnet 和 Haiku。
Mike Krieger:是的。那是 Anthropic 第一次拿出一个至少接近前沿水平的模型系列。那时还有太多产品层面的事情要做:这个产品到底要成为什么?
虽然我的背景更偏消费者产品,但我之所以很兴奋,是因为在 Instagram 到 Anthropic 之间的那段时间,我和 Instagram 的联合创始人 Kevin 做了很多投资。我们有一整套投资主题,其中一个就是「工作的未来」——未来工作会如何被完成。
而 Anthropic 看起来非常有可能解锁这一主题:当你拥有一个非常聪明的助手来帮助你工作时,会发生什么?我当时甚至没有预见到,这件事会变得这么具有颠覆性。
Alex Heath:你当时可能觉得:这是一家挺有意思的小 AI 公司,也许能帮我理解一些投资主题。
Mike Krieger:对,可能会帮助我们理解一些正在思考的主题。但实际上,它改变的东西远比我想象中多得多。
那是第一阶段:团队很小,正在做的项目一只手就能数过来。然后我们快进到去年年底,产品团队已经有几百人了。我们有一整个项目组合,很多工作开始变成部署、理解客户需求、面向客户、管理层级,以及所有这些随着公司成长必然出现的事情。
我逐渐意识到,有些人非常喜欢这类工作,也非常擅长。我非常尊重他们。但对我来说,我有一个很好的教练,她把这种状态称为「能力区」——也就是你擅长做的事,你做得很好,也能胜任,但它并不是最终真正点燃你、驱动你的事情。
这其实是一个很危险的位置。因为你可以在这个位置上做很久很久,而且看起来表现不错,但它不是你最有火焰、最有动力的地方。
所以,去年第四季度,我开始和 Daniela 讨论这件事。我说,公司已经长大了。我们确实把通常需要五年完成的成长过程压缩跑完了。虽然实际也就两年左右。
Alex Heath:是的,我觉得你们增长得还算不错。
Mike Krieger:是的,增长还可以。团队规模、产品组合都扩张得很快。于是我说,我觉得自己想去做一家新公司。
Daniela 问我:这是因为你想离开 Anthropic,还是因为你想调整自己在公司里做的事情?我说,我很喜欢这家公司。这里的人非常棒,我也很喜欢这项技术、使命等等。
刚好那时候,我们也在重新启动 Labs。因为 Labs v1 太成功了,所有项目都毕业了,最后一个人也没留下。于是 Labs 其实就被暂时收起来、放在一边了。
所以我们决定重新启动 Labs,而我也回到 builder 的角色。所有在工作内外见到我的人都会说:「Mike,你看起来太开心了。」
Alex Heath:你的一些同事今天早些时候也跟我说了。他们说,Mike 现在状态太好了,过得特别开心。
Mike Krieger:是的。当然,我仍然是自己最严厉的批评者。所以我每天都会想:我怎么才能做得更好?我们能做什么?我们能构建什么?我们到底在验证什么?
所以这并不是一件轻松的事。但它确实更符合真正驱动我的那些东西。
Alex Heath:我们不用在这个问题上停留太久,但我确实很着迷于科技公司内部做这种「登月式」「从 0 到 1」的实验室。Alphabet 可能是最典型的例子,但类似尝试在科技史上其实很多。有些成功了,有些没有。
Anthropic 的 Labs v1,至少从产品结果来看,显然是成功的。
Mike Krieger:是的。
目标:找下一个 Claude Code
Alex Heath:我想这也会给你现在带来很大压力。因为你会想:好,Claude Code 已经在那里了,我必须做出一个能与它相比的东西。
Mike Krieger:是的。很有意思的是,我们内部有一个类似使命宣言的说法:我们要找到下一个 Claude Code。
在 Labs v2 启动时,这个标准已经很高了。但从那以后,Claude Code 又继续增长,所以这个门槛变得更高了。
我认为有几件事很重要。对我来说,有创业经历很有帮助,因为你永远不可能完全复制那种感觉:两三个人对抗整个世界,手里只有一定数量的钱。如果我们不能做出一个可行的东西,就必须关掉公司,把钱还给投资人。
Alex Heath:这就像你和 Kevin 当年那样。
Mike Krieger:完全一样。我记得那种生死攸关的问题每天都压在我身上:如果这件事做不成会怎样?我还能继续拥有这种独立性吗?我还能继续做自己真正关心的事情吗?
这种感觉在大公司内部很难人为制造出来,除非你设计一些非常复杂的结构。我也见过那种做法。在启动 Labs v2 之前,我研究了很多公司内部实验室的案例。有些公司会让团队获得他们创造出来的东西的一部分股权,或者设计其他类似激励机制。
Alex Heath:对,就是各种「补丁式」的安排。
两周试错一轮项目
Mike Krieger:是的,它们都是在试图修补这种感觉。
但我们发现,真正有效的方式其实不完全是激励机制。因为 Anthropic 本身吸引了很多非常有主动性、有野心,同时又有使命感的人。我们更需要警惕的,不是大家有没有动力把项目做好,而是如何避免这里变成一个舒适的地方,让一些「还可以」的想法被拖上好几个月。
所以我们的做法是缩短周期。Labs v1 基本是四到六周一次评审,一个项目会获得支持,然后团队大概有六周时间去证明一些东西。
现在我们采用两周 sprint。每两周,每个项目都要面向整个 Labs 领导团队汇报。这不是那种「杀戮委员会」式的会议,通常都是比较理性的讨论,除非某个项目真的严重偏航。
但我们会非常认真地追问每个项目一个问题:过去两周你学到了什么?以及:我们学到的东西够多了吗?
有时候,一个项目已经完成了它该完成的事情。你会说,这个项目很棒,它已经证明了该证明的东西,我们其实不需要再多花两周。
现在变化太快了,而且借助这些模型,构建速度也非常快。所以,让一个项目多拖四周的机会成本其实很高。
我认为这是 Labs v2 做得最好的一点:我们把飞轮转得更快了。至少每两周,我们都会衡量一次自己的学习速度,即便暂时还不能衡量外部影响。
Alex Heath:Labs 里的大多数人,都是前创始人吗?
Mike Krieger:很多人确实是前创始人。
Alex Heath:这是你们筛选人的标准吗?
Mike Krieger:我们在 Labs 里大概有两类角色。我们把所有项目都叫做 bets,因为它们本质上都是高风险、高波动的下注。然后是 bet leads,也就是项目负责人。
如果你是那个精神意义上的直接负责人,也就是 DRI(Directly Responsible Individual),这类人几乎都是创始人背景。
但 Labs 里也有其他成员。他们可能不是创始人,而是非常能动手的 builder。比如有人曾经是一家创业公司的早期员工,经历过从 0 到 1 的过程;或者就是非常喜欢构建东西的人。
我们有一位加入 Labs 的同事,她之前在上一家创业公司很早期就加入了,后来又很早加入 Labs。她具备那种「我可以覆盖整个技术栈,哪里需要我就去哪里」的能力。
我认为这种能力和创始人背景一样重要。你不能只有纯创始人,你还需要那种互补的「创始团队气质」。
未来的公司形式:小团队+AI
Alex Heath:我的联合主持人 Ellis 今天来不了,但他给我发了一些问题让我问你。其中一个问题是:你们在 Labs 里组建的这个「创始人超级团队」,是不是一种新的公司组织模式?尤其是在 AI 时代。还是说,这只是 Anthropic 这样公司的特殊情况?
Mike Krieger:这是一个很好的问题。
我认为未来会出现更多这样的团队:一个小团队,配合模型一起工作。模型并不完美,所以你仍然需要有判断力、有品味、有方向感的创始人型人才。
比如昨天我就花了大概两个小时,和团队讨论我正在做的一个 Labs 项目。在那个项目里,我们讨论的是产品中的 multiplayer,也就是多人协作形态,应该长什么样。
那两个小时非常有价值,也非常「人类」。我们就是在一个房间里不断碰撞、推敲。然后接下来大概 12 个小时,我让 Claude 异步地去处理这些想法。
但关键是,你需要有人有判断力:哪些问题必须一开始就充分讨论?哪些事情应该直接去实现?因为如果你不明确指定,模型会替你做出很多决定。
所以,我认为创始人型人才仍然扮演着非常重要的角色。但一旦你把结构搭对了,就可以做很多事情。
我最近做了一个小复盘,回顾 Labs 过去几个月做了什么。其实也才四个月,但有些项目是一月构思出来,二月就进入测试,三月就结束;也有一些项目是二月构思的,现在已经变成 Claude Design。
所以已经发生了很多事情,速度非常非常快。
我认为,未来会有更多公司转向这种模式:更小的团队,给他们自主权,让一个真正有责任感的人来推动项目,而且一开始不要配太多人。
这是我们在 Labs v2 里学到的很重要一点:不要一上来就给一个项目配五个人。应该先从两三个人开始,更像一家创业公司。
Alex Heath:接下来就是我最喜欢的部分了:我会尽量从你这里套出更多关于这些项目的信息。
今年 3 月我们见面的时候,你跟我说,你在研究让 Claude 长时间运行,也就是所谓 long-horizon problem,让它处理更长周期的任务。当时你在负责这个项目。你现在还在负责它吗?
Mike Krieger:没有了。这个项目很典型:我们其实已经把它先放到一边了,但它的学习成果后来进入了今天发布的 Managed Agent 里的 Outcomes。
这个项目的核心想法是,让 Claude 基于 rubric,也就是评估标准,去执行一个面向最终结果或目标的任务,而不是只响应一个单独的 prompt。这和我们之前在 Labs 里探索的方向,在精神上是非常一致的。
我当时也在梳理这个项目后来延伸到了哪里。今天早上的发布里,有两个主题其实就是从这个 Labs 项目直接派生出来的。
一个是 Outcomes。另一个是在 Boris 的演示里,你看到 Claude Code 会通过截图来验证自己的工作,测试自己做出的东西。
这也是我们当时重点推进的方向之一。因为 Claude 看着自己写的代码说「我觉得没问题」,是一回事;它真正去完整地探索和验证,又是另一回事。
在我负责的那个项目里,我们甚至研究过让 Claude 录下自己完成工作的全过程,然后自己回看视频,判断:「哦,这个动画是坏的。」有些问题只靠截图验证是发现不了的。
所以,是的,3 月时我们聊到的那个项目,当时还在开发中。现在我们已经把它放到一边了。它内部仍然可以跑,我们有时候还会用它做一些演示。但它最主要的价值,是成为了上游灵感和能力验证的来源。
Alex Heath:另一个项目,你当时说是让 Claude 自己选择自己的形态。比如它会自我判断:下一段对话,与其用命令行界面,不如变成一个网站。
Mike Krieger:对。
Alex Heath:那就是 Claude Design 吗?还是别的东西?
Mike Krieger:它和 Claude Design 在精神上有很多一致的地方,但不是同一个东西。
我们现在正在追问的问题是:Claude Design 本质上是一种「agent + canvas」的形态。你可以想象,有很多这样的组合。
即便是在 Claude Design 里,我也用它做过很多事情。比如写技术规格文档。现在我最喜欢的写技术文档方式,其实就是用 Claude Design。因为你可以让它把信息流可视化:信息是怎么流动的?还能怎么流动?然后你可以直接看着它演化。
这可能是我第二喜欢的使用场景。第一是做 slides,我现在经常用 Claude Design 做幻灯片。但你完全可以想象,canvas 里还可以承载其他格式。所以这是 Labs 正在探索的一个方向:像 Claude Design 这样,但面向更多类型、更多应用场景。
我觉得这非常令人兴奋。
Alex Heath:所以它本质上是更泛化的生产力软件吗?这是核心想法吗?
Mike Krieger:我觉得这是一个可以继续拉出来深入探索的主题:一种生产力软件,而且最好是可以高度个性化、适配你的生产力软件。我认为这是一个很有意思的趋势。
Alex Heath:你现在还在思考 AI 里的哪些空白领域?
Mike Krieger:随着模型不断进步,我觉得它们在生命科学这类领域成为有用伙伴的能力,会非常有意思。
我最近看到越来越多这样的例子。比如 X 上有一个很棒的 thread,有人自己在家做了全基因组测序。后来他甚至把这件事专业化了,现在可以上门帮你做。
我对这个很感兴趣,因为我是那种很喜欢「自我认知」的人,想弄清楚这些东西到底怎么做。
一些真正了解这个领域的人告诉我,几个月前的模型和现在像 Opus 4.7 这样的模型之间,已经有很大差距。现在的模型在解析遗传数据、从中发现推论,或者读取你的化验结果方面,真的开始有用了。
以前可能只是「哦,很可爱,它说出了一个医生看了之后也会说的话」,或者只是重复一些我们根据经验规则已经知道的东西。但现在它真的开始有价值。
所以,个性化医疗是我很感兴趣的一个空白领域。我觉得我们已经站在一个临界点上。这里还有很多所谓 overhang,也就是现在技术上已经可能做到、但产品和应用还没有充分释放出来的空间。
Alex Heath:现在确实有很多类似创业公司冒出来,比如 Superhuman、Superpower、Ro,还有 Function Health,都在做这类事情。
Mike Krieger:对,完全是这样。今年 1 月我们做 Claude for Healthcare 的早期探索时,其中一个合作方就是 Function。你可以把自己的化验结果导入 Claude,然后做进一步分析。
我这周还开始用一个叫 Subco 的补剂服务。你把自己吃的所有补剂都输入进去,它会知道这些补剂之间怎么相互作用,然后给你建议,比如:你其实不用吃这八种,可以减到四种。
下一步它们还没有做,但我可以想象有人会做:结合你最近一次化验结果,或者结合你的遗传数据,它可以判断你是不是对某种补剂有超强反应。
所以,这整个领域非常有意思。这还只是偏「优化」的一侧。如果再去想那些今天医疗服务覆盖不足的领域,比如很多人没有本地优质医疗资源,那么 AI 也许可以在某种程度上补足这些缺口。
所以这里有很多非常有意思的空白空间。
Mike Krieger:另一个领域也很有意思。大概一年前,我参加过一个消费者 AI 会议,是 Forerunner 组织的。当时我在台上和一些创始人讨论:除了聊天、无尽的助手之外,消费者 AI 的 breakout case,也就是真正破圈的应用,会是什么?
到现在我还没有真正看到它。也许健康算一个,但它又不完全符合我刚才描述的那类消费者应用。AI 驱动的约会产品可能有点机会,但里面天然带着一点让人不舒服的感觉。
Alex Heath:所以不会看到 Claude 做一个约会服务?
Mike Krieger:我觉得我们不会做 Claude Dating Service。但也许某个基于 Claude API 的客户会做类似产品。我不认为我们会在内部做这个。
不过,我仍然觉得这里有一个有意思的空白问题:AI 是否真的能帮助我们更好地理解自己、理解世界、理解社区,并且让人与人之间更连接,而不是更疏远?
举个例子,我最近开始对公民参与很感兴趣:如何把具有代表性的人群组织起来,进行公共议题辩论。我不是这方面专家,但我开始对这个问题感兴趣。
在这种场景下,AI 的作用不是替人做决策,而是帮助找到具有代表性的群体。也就是说,把人保留在过程中,但确保我们听到的是正确的声音。
Alex Heath:我很好奇,你现在身上还有那种「社交媒体产品」的本能吗?
Mike Krieger:现在可能没那么强了。不过,如果说这个方向里还有什么比较有意思的想法,我觉得 Sora 曾经探索过一个点挺有意思:你可以描述自己想要的算法,然后系统为你生成出来。
Alex Heath:这个方向现在到处都在出现。Threads 里有,X 在某种程度上也有。我觉得这会变成一个标准能力。
Mike Krieger:Spotify 也有。我自己就在 Spotify 里用过。我会做一些很「邪门」的播放列表。比如我女儿和我没法就听什么达成一致,我们就让 Spotify 生成一个播放列表,取我们两个人喜好的交集。最后结果可能是 Pavement 加《冰雪奇缘》的音乐。非常好。
Alex Heath:我喜欢这个。很有意思。
Mike Krieger:Spotify 的 AI DJ 确实挺有想法的。但我觉得,这是一种 AI 正在帮助我们个性化自己的方式。
我最近还在想另一个点。我不确定它是不是一个适合 Labs 的项目,但也许有人应该去做:AI 能不能成为一种有用的过滤器,把外部世界里的噪音筛掉?
我最近开始用 Dispatch 和 Co-work,原因也是这个。否则我就是一个无可救药的新闻瘾患者。我会不停地查看每一个新闻网站,读很多东西。这当然有价值,但有时候我也会想:我是不是一直在重复阅读同样的故事?
所以,我现在有一个类似每天早报的东西,放在我之前的工作流里。它会整理我平时会看的那些信息源。很多时候我还是会点进去看原文,但它至少能帮我判断趋势是什么,让我不需要每天早上第一件事就打开十二个网站。
Alex Heath:只要你还在读 The Verge 的 Sources newsletter,Mike,你就可以继续做综合整理。
Mike Krieger:当然,那个一定会直接进我的收件箱。
Alex Heath:我之前好像在 X 上看到过一个泄露信息,不知道真假,说你们在考虑做一些更主动的东西。也许叫 Orbit 之类的?可能会更主动地把你刚才说的这些东西带进 Co-work,或者界面的另一个部分,面向更偏消费者的用户。
你觉得这是一个机会吗?
Mike Krieger:我觉得是的。任何时候,当你看到重度用户自己创造出这类使用场景时,都会自然产生一个问题:如果把这类能力做成内置功能,会是什么样子?
比如定时的每日简报,或者主动监控某些东西。我们在 Anthropic 内部非常依赖 Slack,所以它可以主动监控 Slack;也可以监控邮件。
我自己最近也开始这么做。我的早晨 Claude routine 里有几件事。一个是刚才说的新闻简报。另一个是让它扫描 Superhuman,也就是我个人用的邮箱客户端。因为 MCP 已经发布了,现在它可以扫我的邮箱。
这很有用,因为它知道不同邮件分类,能告诉我:这封你真的应该看一下;这些可以稍后再读。所以现在在打开收件箱之前,我会先看 Claude 给我的摘要。
还有一些购物相关的事情。比如我在等某个东西上架,与其每天早上强迫性地检查一次,我可以让 Claude 去看。
Alex Heath:这是在抢球鞋吗?
Mike Krieger:我应该用它来抢球鞋。但它可能还不够快,抢球鞋需要更快的系统。
还有很多互联网 rabbit hole,也就是那些你一不小心就钻进去的信息洞穴。当然,这里有一个平衡:你不想完全移除这种乐趣。偶尔在互联网上迷路,其实也挺有意思。但也许你可以更有意识地这么做,而不是在后台无意识地刷来刷去。
从 Claude Code 到 Co-work,AI 产品开始服务非程序员
Alex Heath:我自己是 Co-work 用户,每天都用。我甚至用它来准备这次采访,也用它写作,几乎所有事情都用它。它对我来说已经有点改变工作方式了。我还把它推荐给了我妻子和朋友。但我确实觉得它还很早期。大多数人可能还没有像我这样使用它。从产品角度看,Co-work 现在和传统聊天、Claude Code 之间还是有些割裂。我不觉得长期来看它们应该是三个东西。
Mike Krieger:我同意。
Alex Heath:几个月前我去你们办公室时,你的一些同事也说,也许 Co-work 最终会成为一切的前端界面。
Co-work 是你加入 Labs 之前就有的 Labs 项目,对吧?但它发布时你还是 CPO。所以我很好奇,当初做 Co-work 的洞察是什么?是不是你们突然意识到:要把 coding 的能力抽象出来,让普通人也能用?这是一个机会?还是别的原因?
Mike Krieger:这里我很想把功劳给 Dario。
Anthropic 在任何一个时间点都会同时思考很多不同事情:研究、产品、商业、算力、政策、社会影响等等。它不是一家典型公司,不是只有产品和 go-to-market 两件事最重要,CEO 的注意力主要都放在那里。
Dario 的注意力会根据当下最紧急的问题,在不同领域之间切换。Co-work 发布前不久,他对我们说:我最近看到一个很有意思的趋势,有人在把 Claude Code 用于个人场景。但对大多数人来说,这件事很难,因为你得打开终端,而终端本身就很有门槛。
所以他提出了一个问题:如果我们做一个「面向所有其他事情的 Claude Code」,会是什么样?这是一个非常有用的启发。也很符合他的工作方式。他不是给你一张产品草图,也不是把产品完整定义好。
Alex Heath:那就是你的问题了。
Mike Krieger:对。他只是说:这是一个产品问题,你们去解决。后来真正让 Co-work 成形的,是两类人格的结合。当然,参与的人很多,但我会特别想到两个人。
一个是 Felix,他是 Electron 的主要维护者之一,非常了解桌面软件,或者至少非常了解桌面端 Web 软件。他一直在思考一个问题:如何让人在自己的电脑上完成工作?另一个是 Boris,他对 Claude Code 有非常深入的理解。
当我们把他们两个人和各自团队放到一起后,只用了几周时间,就能把 Co-work 发布出来。并不是说所有工作都发生在那几周,而是因为在 Claude Code 侧和桌面侧,之前已经积累了大量思考:如何让不只是程序员的人,也能使用这种能力?
因为这些模型本质上已经是非常强大的 agentic engines,也就是具有代理能力的智能引擎。问题在于,如何把这个引擎交给更多人。
但我完全同意你的判断:现在它给人的感觉,有点像我们不是在发布组织架构图,而是在发布我们的 harness strategy,或者说测试与运行框架策略。这个东西对大多数用户来说并不容易理解。
Alex Heath:而且它也是一个不太好的产品体验。比如,我在 Co-work 里的线程不能同步到 Claude 移动端 App。也就是说,我没法把之前一直在 Co-work 里准备的采访文档,直接带到手机上。
Mike Krieger:对。有些产品会自然指向它下一步应该怎么演进。
比如我是 Dispatch 的重度用户。Dispatch 允许你远程访问 Co-work,但前提是你的电脑必须开着。所以下一个很自然的问题就是:如果我不用一直让电脑开着,那就更好了。那我们怎么往这个方向演进?
Claude Code 已经走在这条路上了,只不过早了半年到一年。比如 Claude Code Remote,我一直在用。我人在外面,也可以启动一个 coding 任务。很多时候,等我回到电脑前,它已经提交了一个 pull request。
你可以想象,Co-work 也会有类似的方向。
但我同意,我们现在确实处在一个阶段:为了创新,我们让很多东西先自然生长出来。这当然很好。但接下来,从上下文和连续性的角度看,你是在这里对话,还是在那里对话,不应该是用户需要思考的问题。
我妻子就经常会问:我不记得了,那是我在 coding 里做的?还是在 chat 里问的?还是在 Co-work 里做的?这说明抽象层是坏的,我们需要修复它。
Alex Heath:这一点其实很合理。因为我和 OpenAI 团队交流时,他们现在的 super app 策略,以及他们围绕 Codex 推进的方向,其实就是你们先用 Co-work 做出来的某种终局形态。
我很好奇,第一,你觉得这种「超级应用」的路径是不是 AI 产品的正确方向?第二,这会不会给你们带来更大压力?因为我觉得 OpenAI 已经意识到,这是一个巨大的机会:把编程的能力带给那些不会写代码的人。
Mike Krieger:对,而且他们推进得非常快。
Alex Heath:Codex 也很不错,新模型也不错,Codex 对他们来说发展得很好。
Claude 之前在 coding 上有过非常大的增长,而且现在外界仍然普遍认为 Claude 在代码能力上领先。但 Codex 确实正在紧追不舍,对吧?
Mike Krieger:是的,它确实变得很强了。
我在 Instagram 最有意思的一些时期,恰恰是遇到像 Snap 这样的竞争对手时。它和我们处在同一个空间里,但方法又有所不同。在一个快速发展的市场里,你会发现,有些想法是你从对方那里借鉴的,有些想法则是对方从你这里借鉴的。
Alex Heath:所以在这个类比里,Anthropic 是 Snap 吗?
Mike Krieger:我也不知道谁是谁。市场动态不一样,市值也不太一样。
Alex Heath:是,有点不一样。
Mike Krieger:但公司气质确实非常不同。
至少在我当时的理解里,不是所有竞争最后都会演化成这样,但 Instagram 和 Snap 那次竞争,在某种程度上确实是这样:我们各自都有自己的优势,也各自以不完全相同、但方向相近的方式看待未来。
问题变成了:每家公司如何演进,去抵达那些不同的位置?
以 Instagram 为例,我们过去给人的印象是,一周发一次非常精致的照片。我们想走向一个地方:让用户更自由地分享。而能够引入 Stories,对我们来说就非常关键。
对 Snap 来说,它们也想拥有更多 influencer 和 celebrity 相关的内容,因为那部分需求正在增长。所以双方都要管理自己的演进路径。
这个类比可能有点过度延展了。但回到我们身上,有 OpenAI 在这个空间里是很有意思的。我觉得对我们来说,最重要的是两件事。
第一,就是我们刚才讨论的:要让我们的产品体系变得更统一、更合理。无论是在网页端还是桌面端,未必一定要是一个单一应用或超级应用,但至少你的各个构建模块之间应该彼此连通,并且放在一起是有意义的。
第二,是继续缩小能力与使用之间的差距。因为今天即便是 Co-work,或者我们现在的任何产品,也依然存在这个问题。
我刚才还和我们的一位招聘同事聊过。他是公司里最极端的 Co-work 重度用户,也是 Anthropic 内部非程序员里 Co-work 使用量最高的人。你看他的工作流,会觉得非常惊人。
但即便在 Anthropic,大多数招聘团队成员也不是那样工作的。
所以,无论最终形态是不是 super app,目标都是一样的:我们能不能创造出合适的产品形态,让这位招聘同事的经验迅速扩散,让其他人也很容易采用类似工作流?或者让每个人都能达到那种使用 Claude 的信心和熟练度?
Alex Heath:我本来今天还挺期待听到更多关于 Co-work 的内容。虽然我知道这是开发者大会。我很好奇,Co-work 相比 Claude Code 发展得怎么样?它增长更快吗?有没有什么数据?
Mike Krieger:我不确定相对于整体 coding 产品来说如何,因为 coding 本身增长得非常非常快。但 Co-work 的增长轨迹,至少和当时 Claude Code 的轨迹类似,甚至更快。这非常令人兴奋。
我个人也非常兴奋,因为我一直希望 Claude 的影响力能超出纯代码场景。
现在几乎每隔几天,我们内部一个更偏生产力方向的 Slack 频道里,就会有人分享 Co-work 的新里程碑。这种增长真的很令人振奋。
我们和企业客户交流时,他们也会说:很好,我们采用了 Co-work,然后也看到了这种现象——有些人真的理解它,有些人还需要很多手把手帮助,不同部门使用方式也不一样。
这是一个好问题。因为它说明,在合适的人、合适的场景、合适的产品形态下,这个产品已经能做对事情。但中间确实还有差距。
我认为,一旦我们能让大多数人不需要太多上手成本,就达到「哦,AI 真的在帮我工作」的状态,它的增长还会进一步加速。
Alex Heath:说到竞争,我们大概一年半前在一个会议上聊过另一个话题:和客户竞争。那时候你们还没有发布 Claude Code 这个产品。
Mike Krieger:对。
模型公司开始下场做应用
Alex Heath:我们当时聊的是,像 Cursor 这样的大客户,如果你们自己也做类似产品,会怎么样?当时你作为 CPO 需要做这个判断。现在你已经不是 CPO 了,应该不用再做这种决策了。
但现在情况怎么样?我们其实已经绕着这个问题聊了不少。比如 Claude Design 和 Figma 之间的争议。你当时在 Figma 董事会,也因此退出了。Dylan 后来也说过一些挺友善的话,看起来这件事未必是针对你个人。
但这件事确实是一个例子。市场上很多人看到现在的趋势,会觉得:天啊,Anthropic 好像要进入每一个关键垂直领域。Figma 那件事看起来尤其有点微妙。
Mike Krieger:这件事肯定比以前复杂了。我刚加入 Anthropic 的时候,我们只有 Claude.ai。我当时会觉得,这不太像在和谁竞争,它更像是一种全新的产品形态。
现在我们仍然会非常谨慎、非常认真地思考要做哪些产品。
我认为,只有当我们自己发布一个产品能带来某种独特价值时,这件事才成立。因为 Claude Platform 上有很多非常优秀的客户,公司内部也有很多人非常投入地支持这些客户成功。
所以问题在于:我们是不是在展示某个方向,让行业看到一种可能性?理想情况下,这应该是一种水涨船高的效果,让很多公司都开始采用这种思考方式。
Claude Code 就是一个很好的例子。此前很多注意力更多集中在编辑器里,而不是终端里。Claude Code 发布后,尤其是我们以那种方式发布、并给予它那么多关注之后,整个行业在很大程度上都开始朝这个方向转移。当然,之前也已经有人在思考终端场景。
这就是我对这些产品的希望。不是说它们要成为各自领域里唯一的产品。如果那样反而会很糟糕。我希望有多样化的产品存在。
更理想的情况是:第一,它们在我们的产品组合里是有意义的。比如,你在 Claude.ai 里已经连接了所有 MCP,那么这应该会让其他产品也变得更好。
第二,它们能展示一种前进方向。比如 Claude Design,它很 agent-first,也就是非常强调智能体优先,并且给 agent 很多控制输出的空间。这会带来一种非常具体的产品体验。
对我来说,它在做 slides 这类事情时很有用。我可以和 agent 一起思考,同时也和它一起生产内容。
Alex Heath:你不认为它会蚕食 Figma 吗?
Mike Krieger:我认为它们对应的是不同用例。
Figma 很强的地方在于 production、refinement 和 collaboration,也就是正式生产、精细打磨和协作。这些确实是 Figma 的强项。我很喜欢 Figma 团队,他们把那个产品打磨得非常适合这个场景。
而我使用 Claude Design 的方式不一样。因为我不是全职设计师。我更多是在生成某种视觉沟通材料,或者做一些交互探索。这里的目的不是精细度或最终生产,而是早期 mockup 的感觉。
我曾经用 Claude Design 给我们的 iOS App 做过一个原型。它的像素效果和我们最终会发布的东西差别很大,但它指出了一个方向:我认为我们应该能够在这个空间里做到什么。所以它们都会继续演进。我这里用 Claude Design 和 Figma 举例,但任何类似产品都是这样:大家都在继续向前。
我希望我们的好想法会进入其他产品,反过来也一样。我认为大家其实是在一起探索:我们需要构建什么样的产品形态,才能最大化利用 agents?
我这周和一位研究员有过一次很好的对话。他说,越是限制 agent 的行为,越是试图对它进行过度具体的约束,里面那些自然涌现出来的魔法就越不容易发生。
我觉得 Claude Code 很好地体现了这一点,Co-work 也在一定程度上体现了这一点。相比之下,Claude.ai 更像是你在聊天、在执行一些非常具体的事情。
我们会继续构建这种形态的产品。它最重要的作用,是让更多人理解这种范式,并把优秀体验构建进自己的产品里。
如果这些产品是由 Claude 驱动的,那当然很好。我们也希望 Claude 继续成为最好的,或者至少是最好的 agentic underpinning 之一,也就是下一代 AI 产品背后的智能体基础能力。
总结来说,这件事确实比以前复杂得多。但我们仍然会尽量沿用同样的原则:非常谨慎地思考我们进入哪些领域,并确保平台侧的构建模块依然开放给大家。比如 Managed Agents。现在你可以基于 Managed Agents 构建出来的东西,和我们内部能构建出来的一样强大。
除非出于安全原因,我们不会因为「保留模型能力能让我们自己更有优势」,就不发布某个模型。这是我们一直坚持的原则。
我们只有在认为一个完整产品确实表达了某种新东西时,才会发布它。
Alex Heath:所以你和 Dylan 关系还好?他以前也来过我们节目,所以我得确认一下。
Mike Krieger:我很喜欢 Dylan,也非常尊重他们正在做的事情。
Alex Heath:这是 Ellis 关于这个话题的另一个问题。现在,尤其是在早期创业圈,大家都在讨论消费者创业公司是否还可行。大家会想:Anthropic 接下来会做什么?下一个 Claude Design 会是什么?OpenAI 接下来又会做什么?
相比之下,企业级市场看起来好像更安全一点。Dario 今天还提到,他认为今年会出现一家「一个人做到十亿美元」的公司。我猜那应该会是一家企业级公司。
但你怎么看现在消费者创业公司的状态?如果你回到当年和 Kevin 一起做 Instagram 的那个自己,面对今天这样的环境,你会有什么不同的做法?
因为世界已经变化很多了。现在做消费者创业,看起来更难了。
Mike Krieger:我觉得,如果把消费者产品的 breakout,也就是破圈增长,做一个极度简化的拆解,大概需要两个东西。
第一,是某种新的能力或新的形态。对我们来说,当年就是拍照手机。现在已经没有人再叫它「拍照手机」了,因为手机有摄像头已经是默认功能。或者,也可能是更丰富的媒体形式,比如 TikTok、Reels 这类产品,因为那时候流媒体能力已经成熟了。
第二,是一个能让你破圈的分发机制。
对我们来说,当年还是一个有点「西部世界」的时代。你可以把 Instagram 照片分享到 Facebook、Twitter、Tumblr,还有 Posterous——这也暴露了 Instagram 是多早期的产品。所有这些平台都允许你自由链接回自己的产品,所以你可以形成一个增长循环。
但今天已经完全不一样了。
我和一些创始人聊天,比如 Locket 的创始人 Matt。他们找到了一些方式,比如你可以进入 TikTok 上的对话场域,由此带来一些有意思的增长时刻。
但我认为,现在的分发生态更难预测,也更不可控。
所以,比起任何一个 AI 玩家,我觉得这可能才是现在最大的趋势或者最大挑战:当你面对这样的分发生态时,你怎么实现破圈?
以前你可能是在和 Facebook 竞争用户时长。我随口举个例子,也许当时 Facebook 的日均使用时长是 15 分钟。但现在你是在和 TikTok 竞争。我猜 TikTok 的日均使用时长可能超过一小时。这其实挺疯狂的,但现实就是这样。你要试图从那里抢走一部分注意力。
所以,如果你需要那两个要素:新的能力或形态,以及新的分发机制。那么在前者上,也许会是某种和 AI 驱动的存在之间的新型互动;或者反过来,是 AI 帮你走出门、去「touch grass」,也就是回到现实世界,产生更多真实互动。
无论是哪种,你仍然必须解决第二个问题:分发。
现在很多注意力正在转向这些聊天智能体。但我不认为有人真正想清楚了:在聊天里「病毒式传播」到底意味着什么?今天这个问题甚至有点不成立。
也许这里会出现某种新东西。比如我们推出了 MCP apps,作为一个开放标准。
Alex Heath:这可能会变成一种新的应用商店式分发,对吧?
Mike Krieger:有可能。你可以把应用接进来。也许第一个真正病毒式传播的 MCP app,会是某种偏消费者的东西。那会很有意思,因为这可能是一种新的分发机制。
我之前和一个非营利 explorer 项目的人聊过。我们曾经写过一篇文章,介绍 MCP 如何被用于某些场景。他说,很有意思的是,他看到了对一个非营利 explorer 项目来说,所谓「病毒式增长」意味着什么。
那个数字当然不是特别大,但他说,他去看 connector 列表的时候,他们有几天排在前五,旁边就是 Gmail 和 Slack。这给他们带来了很多关注。
所以我现在有点是在和你一起边想边说。这也是这种对话有趣的地方。我们未必能马上得到一个完美答案。但也许我们接下来会看到这样的事情:你能不能在 Claude、ChatGPT 或 Gemini 这样的框架里提供足够强的实用价值,然后找到一种有意思的传播方式?
我很期待看到这种事情发生。
AI 越强,判断越稀缺
Alex Heath:你最近和 Every 的 Dan Shipper 录过一期播客。我听了那期,你们聊到你用 Claude 重建了 Burbn。对不了解的人来说,Burbn 是 Instagram 之前的那个应用,后来你们把它转型成了 Instagram。Claude 几分钟内就把它做出来了。
我很好奇,第一,从情感上来说,看着 AI 几分钟内做出你和 Kevin 当年花了很久才做出来的东西,你是什么感受?第二,如果 2010 年的 Mike 能用到今天的 Claude,Instagram 还会出现吗?
Mike Krieger:这是个很好的问题。
Alex Heath:因为我猜 AI 也许不会自己找到那个方向。
Mike Krieger:对。我当时做完之后的感受是:第一,我非常清楚自己让它做什么。而且我也跟 Dan 说过一个很有意思的点:它其实过度构建了。它在 Burbn 里做了滤镜,但 Burbn 当时并没有滤镜。我们是后来发布 Instagram 时才加入滤镜的。
因为 Burbn 完全是基于 Web 的。当时也没有像 WebGL 这样的东西可以做滤镜。所以看到它会自己补出这个东西,挺有意思的。
但我认为,回到我们刚才关于 Anthropic 内部创始人团队的讨论,产品工作中很大一部分,仍然是提出那些难问题,把产品拿给真实用户看。
我既喜欢又讨厌第一次把产品拿出去时被用户「迎面打脸」的感觉。有人会说:这是什么?我完全不知道怎么用。或者:我好困惑。
我毕业后的第一份工作就是 UX researcher,每周都会把人请进实验室做测试。我到现在仍然喜欢这件事。你把人带进来,对最终用户来说,这个产品是 Claude 写的,还是人手写的,其实完全不重要。他们只关心:这个产品有没有用?能不能用?它有没有创造出某种令人愉悦的瞬间?
这些事情仍然很难。Claude 不会替你解决这些问题。所以,如果 2010 年我们有 Claude,当然会有很多地方让我们交付更快,尤其是当要做什么已经很明确的时候。
比如我们发布后,很快就知道要做 @mentions。那可能需要一周时间,从用户界面到文本布局引擎,再到服务器端持久化,中间要处理很多细节。如果当时有 Claude,我们肯定可以更快完成,并更快给用户交付价值。
但从 Burbn 到 Instagram 的那段旅程,我不认为 Claude 会改变太多。除了某些 coding 冲刺阶段,它会让我们更快。至少在当时,我并不觉得从 0 到 1 的编码本身经常是限制因素。真正的限制因素是思考和探索过程。
所以我想说的是:难的事情依然很难。
我有一个担忧:如果 LLM 开箱即用地替你做了太多决策,它会不会反而阻碍你找到那个更不正交、更意外的产品形态?
当然,你也可以反过来利用它。你可以说,好,帮我生成三个替代方案,然后我来看哪个感觉对。我自己也这么做过。
但它绝对不会让你免于做艰难的产品决策。事实上,你更需要做这些决策。
Alex Heath:我觉得这件事变得更重要了。
我在自己的工作里也有这种感觉。我的工作不是写软件,而是做媒体。我可以把更多事情交给 Claude,可以让 skill file 尽量提醒它我喜欢什么风格,等等。
但当我真正读它产出的东西时,我还是会想:嗯,不完全对。然后我会像在编辑部里和记者沟通一样和它沟通。
Mike Krieger:是的。
Alex Heath:我觉得,随着它能力变强,这种能力反而更重要。因为我不想在这个过程中失去自己的直觉。我感觉很多人可能因为 AI 编程太快发展起来,开始有点过度让渡给它。我希望我们之后能重新回到一种更平衡的状态。
Mike Krieger:我觉得人的直觉依然非常重要。我很喜欢你说的「记者和编辑」的比喻。除非记者已经完全跑偏,否则大多数时候,编辑面对的是一篇已经接近你想要的稿子。
Alex Heath:我以前确实遇到过完全跑偏的情况。
Mike Krieger:但大多数时候,编辑可能会觉得:这篇稿子已经有 90% 接近我想要的状态了,再改一改能到 95%;或者它现在是 80 到 85 分。
但如果你从一开始就参与塑造,也许你可以更接近 100%。当然,这些东西并不能被精确量化。
我在 Labs 内部构建东西时也有这种体验。我现在学到的是:最好在 Claude 写任何一行代码之前,先和它进行更充分的对话,把东西推敲清楚。然后我会说,好,现在这个方向感觉对了,我们已经有效地协作出了一份 spec,现在你去实现它。
如果我只是给它一个高层级功能描述,它确实会把功能做出来。我们正在构建的所有验证机制,也会确保它在功能上能运行。
但之后我再看,就会觉得:如果是我,我会稍微换一种方式做。可问题是,它已经做完了。那种「不完全对」的感觉,我不太喜欢。
所以,我们正在转向一种方式:先把北极星表达清楚,然后帮助 Claude 高效、有效地收敛到那个北极星。
公司内部有人说得很好:我们用 Claude 编程时,整个工作的核心就是清晰表达 north star,也就是最终方向,然后帮助 Claude 朝这个方向收敛。
这就是一种 guide,某种意义上也是 manager。当然,软件里的 manager 通常更多是关于人的发展。所以也许更像 architect。但我还没有找到一个特别好的词。
它更像是项目和 Claude 的「向导」或「夏尔巴人」:你带着它一起朝目标前进,而不是指望它一上来就自动完成,也不是你完全不参与早期方向塑造。
Alex Heath:Instagram 和 Anthropic 之间有很多有意思的相似之处。我记得 Instagram 早期有一个问题也让你们很头疼:算力,或者说承载 App 的服务器能力。你们当时没有足够的服务器。有一刻,你们必须想办法解决这个问题。
Mike Krieger:是的。
Alex Heath:而且那笔交易来得非常快。
现在很有意思的是,十多年过去了,算力依然是问题。虽然我知道你不是直接负责算力的人,但我想,在 Anthropic 内部,算力一定是你们经常要思考的问题。你当初加入这家「小 AI 实验室」时,可能也没有预料到这一点。
Mike Krieger:有两个小片段很能说明这一点。第一个也能说明,这两年我确实学到了很多。
Claude 3.5 发布的时候,发布当天,虽然那时我们规模远比现在小,但用户已经开始快速采用。我们几乎快把当时分配给我们的芯片资源全部打满。
我记得我问基础设施团队:好,那如果资源用完了,我们怎么办?是不是直接加容量就行?
因为在我过去 Instagram 的世界里,除非你用的是 AWS 上某种非常特殊的硬件,否则外面总还有更多硬件可以用。
结果他们说:不,不,不。如果这些资源用完了,那就真的用完了。那些 GPU 都已经完全分配出去了。当然,我们正在努力拿更多资源。
我当时意识到:哦,这是一个非常不同的环境。你不能像过去那样直接点一下「新建实例」就解决问题。
Alex Heath:所以这就是你们现在看起来要和 Elon 一起上太空的原因。
Mike Krieger:完全正确。我们确实在寻找新的、甚至有些意想不到的算力来源。那对我来说是一个非常快速的学习过程。我马上就理解并内化了这件事。
我们现在确实会大量思考算力问题。即便是在单个产品里,你也不希望牺牲智能水平。所以问题变成了:如何尽可能多地交付智能能力,同时不要浪费算力?比如,哪些事情可以异步处理?什么时候必须使用最大的模型?什么时候可以用较小模型?
所以,算力确实是一个重要考量。我觉得从很多角度看,这也是健康的。它还让我们更接近客户的处境。你刚才提到客户问题,他们也生活在一个世界里:他们本质上是在购买 token,然后再把这些 token 以某种产品形式转售出去。
所以我们在很多方面和他们是一致的,都希望这个生态是健康的。过去一年,你已经看到市场更明显转向 token-based pricing 或 usage-based pricing,也就是按 token 或按使用量计费。
我记得一年前看这个生态时,我会想:我们的客户想收更高价格,或者说想交付更多价值,但他们受到当前定价模型的限制。
而现在,越来越多客户可以真正围绕智能能力交付价值,或者至少让用户自定义成本和能力之间的关系。比如你可以说:我想优化成本,那我就使用一个没那么前沿的模型,但我知道自己能得到什么价值;或者我真的想把这件事做好,那我就用 fast mode,多消耗 token,因为我有这个可以调节的旋钮。
所以,是的,在 Anthropic,算力显然比在 Instagram 时代更重要。但某种程度上又有相似之处:Instagram 当时的增长也像指数级增长,至少如果你去算的话是这样。
Alex Heath:Dario 说你们 Claude Code 在第一季度大概增长了 80 倍。我不知道 Instagram 有没有过 80 倍增长。
Mike Krieger:没有。我觉得除了第一周那种从 100 到 10 万的阶段之外,我们确实有非常稳定、非常不错的百分比增长,但没有像这样。
Alex Heath:我们可以在这里收尾。你在 Anthropic 已经算很早期了。虽然我说「早期」,其实也已经两年了,但在 AI 世界里,这仍然很早。
Anthropic 的文化让我觉得很有意思。我和公司里的人接触越多,就越能感受到这一点。很多人从外部看 Anthropic,会看到各种标题,看到 Mythos,看到 Dario 谈到也许 50% 的工作会消失。很多人会说:他们只是在制造恐慌,或者这里面有监管俘获的策略。
但我发现 Anthropic 的文化非常独特。我很好奇,在你看来,外界对 Anthropic 的理解,与 Anthropic 内部真实相信自己在做什么之间,最大的断裂在哪里?
Mike Krieger:这是一件很难让别人相信的事。因为我可以一直说:我们是一家非常透明的公司。我们说出来的,就是我们真实想的。
Dario 可能是我见过最直言不讳的人。他说出自己的想法,并不是经过精心计算:「这样讲会不会帮我融下一轮资?」完全不是这样。
我和他逐渐熟悉之后,看到他在内部和外部如何行事,我很清楚,这不是他沟通或推出产品策略背后的驱动力。当然,说是一回事,长期做出同样的行为是另一回事。
但也许我可以用一个内部例子来说明。今年从商业增长、使用量增长等角度看当然都很好。但我认为,公司之所以仍然保持 grounded,也就是没有失去重心,是因为 Anthropic 的目标并不是建立一家庞大的商业公司。
Anthropic 的目标是尽我们所能,把世界推向一个更好的 AI 未来。一旦你从这个视角看所有事情,它就能解释很多后续决策。
当然,我不能要求别人不要保持怀疑。最终,我们还是必须继续通过行动证明:我们不是在制造恐慌,也不是因为觉得这样会让自己显得更前沿,就故意压住某些东西不放。
我举一个例子。公司内部的信念是:我们应该能够安全地发布一个 Mythos 级别的模型。而到目前为止我们还没有做到,这其实是一件不好的事情。我们并不为此感到骄傲。
因为如果我们把这件事做对了,所有正向用例就都可以发生。刚才我们聊到生命科学,在 Mythos 这类模型上,那里确实可能出现很多有意思的东西。我自己也在内部用 Mythos 写了很多软件,它在这方面真的很强。
Alex Heath:你的内部软件不会有网络安全风险,对吧?
Mike Krieger:对。我们确实已经想办法尽可能安全地做这件事。但这就是我们看世界的方式。我们想把这些能力交到人们手里,并不想压住它们。我们正在非常努力地工作,避免能力因为安全问题而无法发布。
所以,这确实需要我们证明。我觉得外界要求我们证明这一点,是公平的。
但当我看到有人说:「他们只是想推高下一轮估值」「他们只是想显得自己很厉害」「他们其实根本不相信这些话」时,至少在你愿意相信我的范围内,我可以说,这不是 Anthropic 内部真正的驱动力。
不过,还是那句话,我们的任务是用时间证明这一点。
Alex Heath:最后一个问题。当有人来找你说:Mike,我很担心自己的工作。我也担心我的家人、孩子、祖父母的经济安全。你会怎么回答他们?
Mike Krieger:我不会告诉他们「不用担心」。因为我确实认为,会发生很大的变化。我们不知道它会有多快。大家可以对时间线有不同判断,但变化已经在发生。
最近我收到一类邮件,很多是我在社交或职业场合认识的人,他们的孩子刚大学毕业。他们会问:我们该怎么办?我通常会告诉他们一件我自己相信的事:这个问题不是一家公司,也不是政府的某一个部门可以解决的。它需要一种社会层面的对话。
如果说我们一直在尝试做什么,那就是推动这场对话发生。虽然这有时候会被解读成制造恐慌。无论是不同的税收结构,还是 reskilling,也就是再培训和技能重塑,实际上都需要一起发生。我想你也看到,我们最近在一些政策提案上开始变得更具体。
如果真的要回答一个人,这会是一个很长的答案。因为问题本身很复杂。但我会告诉他们:你不是一个人。这是一个共同面对的、复杂的问题。
我也相信,有些东西仍然会保持人类性、难以言说且非常重要。比如关系、好奇心、创造力,以及把一群人组织起来朝某个目标前进的能力。这些仍然会非常非常重要。我不认为 AI 会很快取代这些东西。
如果你能掌握这种能力,或者至少持续培养、持续滋养它,我认为这非常重要。
另外,也不要把现在这个时刻看成一种固定状态。事情还会继续变化。即便在当下这个充满不确定性、甚至有些艰难的时刻,某个朋友的孩子没有拿到自己最想要的工作,也不代表事情就定型了。没有什么是一成不变的。
如果人们能保持好奇,持续主动探索前沿到底是什么,他们也许会参与创造一个全新的职业类别,或者在自己的公司里走向另一个位置。
我认为整个格局还会继续变化。所以,不要把当前这个不确定、困难的阶段,看成一个会把所有人锁死的静态状态。
Alex Heath:好,Mike,我就让你回实验室了。谢谢你来聊。
Mike Krieger:很高兴见到你。
Alex Heath:谢谢。
Mike Krieger:谢谢。
视频链接


