Claude Fable 5 发布:Anthropic 终于开始认真做 Agent 了

如果过去两年一直关注大模型的发展,你会发现一个有意思的现象。

OpenAI 在不断强化模型的通用能力。

Google 在拼命补齐生态体系。

而 Anthropic 一直在做另一件事:

让模型能够独立完成更长时间的工作。

从 Claude 3 到 Claude 4,再到这次发布的 Claude Fable 5,这条路线几乎没有发生过变化。

很多人把 Fable 5 看成 Opus 4.8 的升级版。

但我觉得这种理解并不准确。

从官方披露的信息来看,Fable 5 更像是 Mythos 架构首次向公众开放后的产物。

这可能是 Anthropic 最近两年来最重要的一次产品发布。


一天干完两个月的活,这个数据为什么引发关注

发布当天,最吸引眼球的数据来自 Stripe。

官方案例显示,在一个超过 5000 万行代码的 Ruby 项目中,Fable 5 在一天内完成了一项原本预计需要工程团队两个月才能完成的大规模迁移任务。

看到这个数字的时候,我的第一反应其实不是震惊。

而是怀疑。

因为任何一家模型厂商在发布新品时,都会选择最具代表性的案例进行展示。

但仔细想想,重点其实并不在于“两个月变一天”。

真正值得关注的是:

Anthropic 开始公开展示模型处理超大型代码库的能力了。

过去的大模型写一个脚本没问题。

写一个模块也没问题。

但面对几十万文件、数千万行代码的时候,大多数模型都会出现类似的问题:

  • 忘记上下文
  • 理解出现断层
  • 推理逐渐跑偏
  • 修改一个模块影响其他模块

很多时候程序不是写不出来。

而是不知道改完之后会不会把其他地方搞崩。

这也是为什么 AI 编程工具已经火了两年,但真正敢把核心业务完全交给 AI 的企业并不多。

而从 Anthropic 的展示来看,Fable 5 想解决的正是这个问题。


官方对比:Fable 5 到底强在哪里

从官方公布的基准测试来看,Fable 5 在软件工程、长程推理以及复杂知识工作任务上都有明显提升。

不过相比跑分数据,我更关注 Anthropic 这次展示案例的变化。

过去模型发布时,厂商最喜欢展示的是:

  • 数学题
  • 竞赛题
  • 标准基准测试

而这次官方反复提到的却是:

  • 大型代码迁移
  • 长时间任务执行
  • 自动规划与修正
  • Agent 工作流

这说明 Anthropic 已经不再把重点放在“回答得更聪明”上,而是开始强调“能不能把事情做完”。

这也是 Fable 5 与以往 Claude 模型最大的区别之一。


关于价格:能力提升的代价

能力提升的同时,价格也来到了一个新的高度。

根据官方公布的信息:

  • 输入价格:10 美元 / 百万 Token
  • 输出价格:50 美元 / 百万 Token

这个定价已经明显高于许多主流模型。

尤其是输出价格,甚至会让很多开发者第一眼觉得有些夸张。

但如果把 Fable 5 理解为一个能够连续执行复杂任务的 Agent,而不仅仅是一个聊天模型,那么 Anthropic 的定价逻辑就比较容易理解了。

他们卖的不是一次对话。

而是一次完整的工作过程。

当然,用户是否愿意为这种能力买单,还需要市场来验证。


真正的变化不是写代码,而是持续工作

我认为很多人都低估了这次发布。

我认为很多人都低估了这次发布。

因为大部分讨论都集中在代码能力上。

实际上,Anthropic 在整篇发布文章中反复强调的是另一个概念:

Long-Horizon Tasks(长程任务)。

简单来说,就是让模型连续工作几个小时,甚至几天。

而不仅仅是在几十秒内回答一个问题。

这是两个完全不同的挑战。

过去的模型更像实习生。

你问一句。

它答一句。

你让它继续。

它继续。

整个过程必须有人盯着。

而 Anthropic 现在想打造的,更像是一名真正的项目成员。

你给它一个目标。

它自己规划步骤。

自己拆解任务。

自己修复错误。

最后把结果交回来。

如果这个方向真的能够跑通,那么未来最大的变化可能不是聊天机器人,而是各种 AI Agent。


Mythos 5 才是真正的大招

这次发布还有一个容易被忽略的信息。

Fable 5 并不是完整体。

它的背后其实是 Mythos 5。

根据官方介绍,两者使用的是同一个基础模型。

区别在于 Fable 5 增加了一层安全分类器。

当涉及网络安全、生物学、化学研究等高风险领域时,会自动切换到能力较弱的模型进行回答。

换句话说。

现在大家用到的 Fable 5 已经很强了。

但它还不是 Anthropic 认为最强的那个版本。

这也是为什么 Mythos 5 目前只向政府机构、关键基础设施运营商以及安全研究组织开放。

从某种程度上来说,这可能是 Anthropic 第一次公开承认:

某些领域的 AI 能力已经强到需要分级管理。


AI 行业开始进入新的竞争阶段

过去两年,大模型公司一直在比拼:

  • 谁参数更多
  • 谁跑分更高
  • 谁知识更新更快

但从 2026 年开始,竞争方向正在发生变化。

现在大家比的是:

谁能让模型持续干活。

Cursor、Claude Code、Devin、OpenAI Agents、Gemini CLI。

这些产品背后其实都在解决同一个问题:

如何把 AI 从问答工具变成执行工具。

而 Fable 5 的出现,说明 Anthropic 已经把主要资源投入到了这个方向。


我的看法

如果让我用一句话总结 Fable 5。

那就是:

它不像一个更聪明的 Claude,而更像一个开始具备工作能力的 Claude。

过去的大模型是在帮助人完成任务。

现在的大模型开始尝试自己完成任务。

这两个阶段之间的差距,可能比 GPT-3 到 GPT-4 还要大。

至于 Fable 5 是否真的能达到宣传中的水平,还需要时间验证。

但至少从 Anthropic 公开透露的方向来看,他们已经不满足于做一个聊天机器人了。

他们想做的,是一个能够持续工作的数字员工。

而 Fable 5,或许只是这个故事的开始。

最后,附上 Anthropic 官方原文与演示视频,有兴趣的朋友可以自行阅读体验。

觉得有帮助可以投喂下博主哦~感谢!
作者:慕尘空
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0协议
转载请注明文章地址及作者哦~
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇