元数据:调研模式 deep · 数据截至 2026-06-29 09:52 CST · 主题类型:前沿模型 / 公司战略 / 产品可用性 / Agentic AI · 输出落点:Research Archive
参考来源:OpenAI 官方发布与 Help Center、OpenAI Deployment Safety System Card、Anthropic 官方发布/API 文档/System Card、Project Glasswing、AWS、Reuters、CNBC、Epoch AI、BBC、Politico、VentureBeat 等 · 共引用 19 个来源
核心结论:GPT-5.6 与 Claude Fable 5 不是普通“更聪明模型”的竞争,而是两家公司把前沿能力推向真实市场时的两套工程化治理方案。OpenAI 走“平台化 + 多层模型 + ChatGPT/Codex/API 统一入口”,强调把 Sol/Terra/Luna 接入 Codex、API 和未来 ChatGPT 的广覆盖;Anthropic 走“安全分层 + 企业高价值任务 + 受信任访问”,用 Fable 5 做公版 Mythos-class,用 Mythos 5 保留高风险域能力。后续可用性不会只取决于模型训练完成,而取决于政府审查、安全分类器、数据留存、企业合规、成本和 agent harness 的成熟度。
一、先校准事实:GPT-5.6 与 Fable 5 都是真实发布,但“全面可用”仍被限制
核心判断:这两次发布最重要的信息不是“又上一个版本”,而是前沿模型已经进入受限预览、受信任访问、安全 fallback 与数据留存共同定义可用性的阶段。
OpenAI 在 2026 年 6 月 26 日发布 GPT-5.6 系列预览,官方页面把 GPT-5.6 Sol 定义为下一代模型,并同时提到 Sol、Terra、Luna 三个成员。Help Center 明确说,预览期内 GPT-5.6 只通过 OpenAI API 与 Codex 提供给有限的可信合作伙伴和组织,暂不在 ChatGPT 中提供;OpenAI 计划在接下来数周内把该系列推广到 ChatGPT、Codex 和 API。[1][2]
Anthropic 在 2026 年 6 月 9 日发布 Claude Fable 5 与 Claude Mythos 5。官方公告说,Fable 5 是“为通用使用做安全化处理”的 Mythos-class 模型;Mythos 5 与 Fable 5 使用同一底座,但在部分领域解除或放宽安全限制,先通过 Project Glasswing 面向小范围网络防御者和基础设施提供商部署。[4]
这两个发布放在一起看,说明一件事:前沿模型的可用性已经不再等同于“API 上架”。它现在由四层共同决定:第一,模型是否训练完成;第二,是否通过内部与外部安全评估;第三,是否被政策/政府/受信任访问项目限制;第四,企业是否能接受数据留存、成本、fallback 和审计要求。
所以,前两轮聊天里把 GPT-5.6 或 Fable 5 简化成“谁 benchmark 更高、谁估值更高”是不够的。真正需要分析的是:OpenAI 和 Anthropic 都在把危险但有商业价值的能力拆成不同产品层,区别只是 OpenAI 更强调平台扩散,Anthropic 更强调能力域封装和企业安全合法性。
二、模型定位:OpenAI 做三层产品线,Anthropic 做同底座双治理形态
核心判断:GPT-5.6 的 Sol/Terra/Luna 是成本、速度和能力的产品梯度;Fable/Mythos 则是同一高能力底座在不同风险权限下的治理梯度。
OpenAI 的 GPT-5.6 系列采用 Sol、Terra、Luna 三层命名。OpenAI 官方 Help Center 把 Sol 称为旗舰和最强模型,Terra 是强能力低成本选项,Luna 是最快、成本效率最高的模型。[2] 这套命名的商业含义很直接:OpenAI 不只是交付一个“最强模型”,而是交付一个可路由的模型族,让 API、Codex 和 ChatGPT 能按任务复杂度、成本预算和延迟要求切换。
这种路线延续了 OpenAI 近两年产品化思路:用 ChatGPT 抓住个人和团队入口,用 API 服务开发者,用 Codex 抓住软件工程工作流,再通过企业级产品把模型能力接入组织工具和数据。OpenAI 在企业 AI 文章中把当前阶段称为“capability overhang”:模型能做的已经超过多数企业实际使用水平,因此重点不是再证明模型聪明,而是帮助企业把 agent 接进业务工具、数据和状态环境。[13]
Anthropic 的 Fable/Mythos 分层不一样。Fable 5 与 Mythos 5 更像同一底座能力的两种治理形态:Fable 是公版,加入安全分类器、拒答、fallback 和数据留存;Mythos 是受信任访问版本,在 cyber/bio 等敏感域保留更多能力。官方文档还把 Fable 5 / Mythos 5 的 adaptive thinking、fallback、billing、availability 单独列成接入要点,而不是只放模型卡参数。[5]
这意味着两家公司在“模型产品化”的最小单元上不同。OpenAI 的最小单元是“任务路由”:Sol 做最难任务,Terra 做主力任务,Luna 做成本敏感任务。Anthropic 的最小单元是“风险域路由”:低风险通用任务走 Fable,高风险或受信任防御任务进入 Mythos 或 fallback。前者更像平台型模型调度,后者更像合规型能力授权。
三、能力评价:二者都在推长程 Agent,但强项和可用边界不同
核心判断:GPT-5.6 与 Fable 5 的共同方向是长程 agentic work;区别在于 OpenAI 更偏“平台与工具链集成”,Anthropic 更偏“复杂任务深度与安全边界”。
OpenAI 官方发布强调 GPT-5.6 在 coding、biology、cybersecurity 等能力上明显提升,并把更多安全和 preparedness 评估放在 Deployment Safety System Card 中。System Card 摘要称,GPT-5.6 在网络安全能力上有实质进步,可以发现漏洞和 exploit 片段,但没有达到 OpenAI 风险框架中的 Critical 阈值,不能稳定自主完成对加固目标的端到端攻击。[1][3]
OpenAI 的更大产品语境是 agentic work。OpenAI 在关于 Codex 的研究文章中提到,接近四分之一的 Codex 请求对应人类需要超过一小时完成的任务,并用这类数据说明 agent 正在从短补全进入长任务委托。[12] 这与 GPT-5.6 进入 Codex 的优先级一致:模型能力提升不是只为了聊天,而是为了让 Codex 处理更长、更复杂、更接近真实工作的任务。
Anthropic 对 Fable 5 的能力叙事更明确指向长程复杂任务。官方公告说 Fable 5 在软件工程、知识工作、视觉、科学研究等方面表现突出,任务越长越复杂,它相对其他模型的领先越明显;Stripe 早测案例称,Fable 5 在 5000 万行 Ruby 代码库中一天完成了原本团队手工需要两个多月的迁移。[4]
但 Fable 5 的能力边界也更显性。官方公告承认,为安全起见,某些主题会转由 Claude Opus 4.8 回答;分类器平均在低于 5% 的会话触发,但会保守地误伤部分无害请求。[4] 这对开发者很关键:Fable 5 的“能力”不能简单等同于底座能力,实际可用能力还取决于分类器、fallback 和客户身份。
我的整体评价是:GPT-5.6 更像 OpenAI 重新抬高通用平台上限的一次版本推进;Fable 5 更像 Anthropic 把 Mythos-class 长程代理能力包装成可销售、可审计、可管制公版产品的一次制度实验。前者的强项是覆盖面与路由弹性,后者的强项是复杂任务深度与企业可信叙事。
四、可用性趋势:未来几周到几个月的变量不是单一技术,而是政策、合规和供应链
核心判断:GPT-5.6 和 Fable 5 后续能不能“好用”,不只看模型本身,更看访问策略、政府态度、云平台分发和企业风控是否放行。
OpenAI 官方 Help Center 对 GPT-5.6 的短期可用性说法相对明确:预览期只给有限可信伙伴和组织,不在 ChatGPT 中提供,目标是在未来数周内扩大到 ChatGPT、Codex 和 API。[2] 这意味着普通开发者和个人用户短期不应把 GPT-5.6 当作稳定可用基础设施,而应视为即将进入平台主线但仍有 gate 的预览能力。
Anthropic 的 Fable 5 理论上更早面向公众和企业可用,但它的可用性有另一种限制:30 天数据留存、fallback/refusal、平台差异和可能的政府 directive。Anthropic 后续发布的声明显示,美国政府曾要求暂停 Fable/Mythos 访问,Anthropic 在声明中强调其 safeguards 和 30 天留存政策是为了发现与缓解 jailbreak。[7] 这说明前沿模型的可用性已经受政策环境直接影响,而不是纯产品节奏。
云平台也会改变可用性。AWS 对 Claude Fable 5 的说明显示,Bedrock 上访问 Fable 5 要理解 Anthropic 对 Mythos-class 模型的数据留存要求;使用这类模型会触发 provider data sharing,输入输出可能被 Anthropic 留存和审核,数据会离开 AWS 数据安全边界。[11] 对很多企业来说,这比“模型有没有开放”更关键。
所以我对后续可用性的判断是:OpenAI GPT-5.6 会逐步扩大,但大概率沿着 ChatGPT/Codex/API 的账户、组织、地区和安全 gating 分层推进;Anthropic Fable 5 会在公版维持可用,但高风险域会继续受 classifier、fallback、trusted access 和数据留存约束。未来的趋势不是“所有人都能随便用最强模型”,而是“强模型越来越可用,但每个能力域背后都有权限、审计和成本条件”。
五、价格与成本:标价只是入口,真正成本来自长任务、上下文和验收
核心判断:GPT-5.6 与 Fable 5 都在把用户带入高 token、高运行时、高验收成本的 agentic work,单看 input/output 标价会低估真实成本。
OpenAI 官方发布页和第三方整理都显示,GPT-5.6 系列通过 Sol/Terra/Luna 做价格与能力分层;OpenAI Help Center 更强调预览期通过 API 与 Codex 提供给有限组织。[1][2] 即使不引用非官方价格表,仅从产品结构也能看出 OpenAI 想把高端模型用于高价值任务,同时保留中低成本层给批量调用与日常工作。
Anthropic 官方公告明确 Fable 5 和 Mythos 5 的标价是每百万输入 token 10 美元、输出 token 50 美元,低于 Mythos Preview 的一半。[4] Claude API 文档则进一步说明 adaptive thinking 始终开启,并通过 effort 控制推理深度、延迟与成本。[5][10]
但这两家的真实成本都不止 token 单价。长程 agent 任务会带来上下文反复压缩、工具调用、子代理、日志、测试、重试和人工 review。OpenAI 在 Codex 研究中关注“人类任务时长阈值”,说明它希望 Codex 处理越来越长的工作。[12] Anthropic 官方文档和 Fable 5 早测也都强调长任务、复杂任务和 autonomous work。[4][10]
对企业而言,成本应按“任务闭环成本”估算,而不是按一次 prompt。一个大型迁移任务的成本至少包括:模型 token、工具执行、CI 资源、review 人力、失败回滚、合规审查和后续维护。尤其是 Fable 5 这类模型,如果没有预算上限、进度事件、权限隔离和真实验收,很容易出现“AI 看起来干了很多活,但没人知道它改了什么、为什么花了这么多钱”。
六、安全治理:OpenAI 是分层防护栈,Anthropic 是公版降级与受信任访问
核心判断:OpenAI 与 Anthropic 都承认前沿模型出现高风险能力,但治理手段不同:OpenAI 偏部署安全栈,Anthropic 偏能力域分层与访问资格。
OpenAI 的 GPT-5.6 System Card 重点放在 Preparedness Framework、网络安全能力、bio/chem 风险、激活分类器和实时阻断。System Card 摘要称,GPT-5.6 Sol 和 Terra 可以发现漏洞与 exploit 片段,但没有达到 Critical;同时新增 activation classifiers,针对敏感领域在生成过程中监控并阻断越界输出。[3]
这是一种“安全栈”思路:模型本体安全训练、部署时分类器、实时输出阻断、对话扫描和账户级治理共同工作。OpenAI 的表达重点是:能力提升可以被部署安全系统吸收,尚未越过最高风险阈值,因此可以通过有限预览逐步扩大。
Anthropic 的做法更产品化地拆成 Fable 与 Mythos。Fable 5 公版带有更严格 safeguards,触发时可能由 Opus 4.8 回答;Mythos 5 在受信任项目里保留更多高风险域能力。[4][5] Project Glasswing 则为这种访问控制提供政治和社会合法性:先把最危险但有防御价值的能力交给网络防御者、关键基础设施和受信任机构。[6]
二者的差异会影响使用体验。OpenAI 用户可能更常感受到“同一产品里模型/安全栈逐步放量”;Anthropic 用户更可能感受到“同一个任务因风险域不同而被拒答、fallback 或要求进入受信任访问”。从企业治理看,Anthropic 的边界更显性,OpenAI 的平台连续性更强。
七、公司战略:OpenAI 把模型变成 AI 操作系统入口,Anthropic 把可信高价值工作变成商业飞轮
核心判断:OpenAI 的核心战略是最大化入口和平台控制面;Anthropic 的核心战略是用安全可信品牌切入高价值企业工作流,并在 coding/agent 上形成商业杠杆。
OpenAI 目前的战略可以概括为“通用入口 + agent 平台 + 企业部署”。ChatGPT 仍是 C 端和知识工作入口,Codex 是工程入口,API 是开发者入口,OpenAI Frontier 等企业产品试图让客户在公司范围内部署和管理 agents。OpenAI 企业文章明确说,目标是帮助 Oracle、State Farm、Uber 等客户公司级构建、部署和管理 agents,并通过 stateful runtime environment 让 agents 保持上下文、记住过去工作、跨企业工具和数据运作。[13]
这说明 OpenAI 的产品思路不是只卖模型,而是把模型变成企业 AI 操作系统的一部分:身份、工具、状态、记忆、任务执行、模型路由、API 与 UI 都应在 OpenAI 平台上闭环。GPT-5.6 的 Sol/Terra/Luna 三层,正好服务这套路由:不同任务用不同能力层,不同入口共享同一模型代际。
Anthropic 的战略更像“安全可信 + 专业高复杂工作 + 云/企业合作”。CNBC 报道中,Anthropic 总裁 Daniela Amodei 说 Anthropic 一直优先面向企业业务;报道还提到 Anthropic 年化收入 run rate 已超过 300 亿美元,增长由 Claude 模型,尤其 Claude Code 推动。[17] 这些数字应视为媒体报道和公司披露口径,不是审计财报,但足以说明 Anthropic 的商业重心与 OpenAI 的消费者入口不同。
Anthropic 的产品矩阵也在支持这个方向:Claude Code 抓工程,Claude Enterprise 抓组织知识与权限,Claude Cowork/agents 抓办公室知识工作,Fable/Mythos 抓长程高复杂任务和高风险能力授权。其“安全”不是单纯价值观口号,而是进入金融、医疗、政府、关键基础设施、代码库和安全团队的商业通行证。
八、产品思路差异:ChatGPT/Codex 追求通用触达,Claude Code/Fable 追求高复杂任务深水区
核心判断:OpenAI 的产品强项是把 AI 放到更多人手边;Anthropic 的产品强项是把 AI 放进更难、更长、更需要信任的任务里。
OpenAI 的 ChatGPT 使其拥有最强的消费者心智和默认入口;Codex 则把这种入口迁移到软件工程。OpenAI 对 Codex 的研究强调越来越多请求对应长时间人类任务,这说明 Codex 不是简单补全器,而是在成为工程代理工作台。[12]
GPT-5.6 如果按计划进入 ChatGPT、Codex 和 API,它带来的不是单点能力升级,而是 OpenAI 全产品面的上限抬升:ChatGPT 可以更强,Codex 可以处理更难任务,API 可以给企业构建更强 agent,OpenAI Frontier 可以把 agent 扩到公司级工具链。[2][13]
Anthropic 的 Claude Code 与 Fable 5 更强调深水区。Fable 5 的官方案例不是“回答更好”,而是“5000 万行代码库迁移”“高级金融分析”“复杂视觉任务”“长上下文和记忆任务”。[4] 这些场景共同特点是:任务难、耗时长、上下文多、需要工具、需要验收,也更容易被企业付费。
这也导致产品风险不同。OpenAI 面临的问题是:广覆盖平台需要在不同用户、地区、行业和监管环境下稳定放量;Anthropic 面临的问题是:高价值深任务必须证明可靠、可审计、可控,否则单次失败的代价更高。前者怕规模化安全事故,后者怕高信任场景里的治理失败。
九、企业采用:赢家不是“模型榜第一”,而是谁能进入权限、数据、流程和验收系统
核心判断:企业不会长期为“榜单第一”买单,只会为“接入后能稳定降本、提效、可审计”买单。
企业采用前沿模型至少要过五道门:数据能不能给、权限能不能控、任务能不能验、成本能不能算、失败能不能回滚。GPT-5.6 和 Fable 5 都把企业推向这些问题。OpenAI 通过 Frontier、Codex、stateful runtime、企业工具连接来解决平台化接入。[13] Anthropic 则通过 Claude Code、Fable/Mythos 分层、fallback、数据留存说明和 Project Glasswing 可信叙事来解决高风险任务进入问题。[4][5][6][11]
在软件工程场景,二者都在争夺“AI coding agent 的主控位”。OpenAI 的优势是 Codex 与 ChatGPT/API 一体化,适合已有 OpenAI 账户体系和广泛用户基础的组织;Anthropic 的优势是 Claude Code 在复杂工程任务和长上下文口碑上更强,Fable 5 进一步强化“把项目交给模型”的叙事。
在知识工作场景,OpenAI 更容易成为默认入口,因为 ChatGPT 用户习惯和企业部署覆盖更广;Anthropic 更容易在法律、金融、研究、合规、代码库等高复杂任务里证明价值,因为它的长上下文、谨慎风格和安全品牌更贴近这些场景。
所以未来企业不是二选一,而是多模型分层。常规问答、检索增强、轻量自动化用成本更低模型;复杂代码迁移、长文档推理、跨工具 agent 用旗舰;涉及 cyber/bio/客户数据/源码时再按 retention、fallback 和访问资格细分。真正的竞争不在模型列表,而在企业 agent runtime 谁来掌控。
十、财务与估值:公开数字支持“Anthropic 快速追赶”,但别把媒体估算当审计事实
核心判断:Anthropic 的收入和估值追赶非常快,但相关数字多来自融资、媒体报道和估算;分析战略可以用,做精确财务判断必须降置信度。
Reuters 报道称,Anthropic 在 2026 年 5 月完成 650 亿美元融资,投后估值 9650 亿美元,并超过 OpenAI 3 月的 8520 亿美元估值;报道还提到 Anthropic 该轮资金用于扩充算力,以满足 Claude 和产品规模增长需求。[16]
CNBC 报道也称,Anthropic 融资后估值 9650 亿美元,OpenAI 3 月估值 8520 亿美元;同一报道提到 OpenAI 年化收入 run rate 从年初约 300 亿美元增长,而上一年年收入约 100 亿美元。[18] CNBC 另一篇 Disruptor 50 文章称,Anthropic 年化收入 run rate 超过 300 亿美元,高于去年底 90 亿美元,增长由 Claude 和 Claude Code 推动。[17]
Epoch AI 则从公司披露与媒体报道整理 AI 公司年化收入数据,并认为 Anthropic 有可能在 2026 年中左右超过 OpenAI 的年化收入。[19] 这类数据适合用来观察趋势,但不是审计财报,也可能受融资叙事、口径转换、run rate 外推和未公开合约影响。
因此更稳的判断是:Anthropic 在企业与代码代理市场的商业化势头确实非常强,足以改变“OpenAI 绝对领先”的市场叙事;OpenAI 仍拥有最强消费入口、平台生态和 API/ChatGPT 分发能力。估值短期谁高谁低不是本质,关键是 Anthropic 已经证明“安全优先 + coding/enterprise 深耕”不是小众路线,而是可以长成万亿美元级叙事的主线之一。
十一、对国内与本地 Agent 体系的启发:多模型分层比单押旗舰更稳
核心判断:对国内团队或本地 Hermes/Agent 体系,正确动作不是追逐单一最强模型,而是建立可观测、多模型、可回退的任务路由。
GPT-5.6 与 Fable 5 都在告诉我们:未来 agent 系统的核心不是“把默认模型换成最贵的”,而是把任务拆成层级。高复杂任务用强模型做规划、关键判断和最终整合;批量搜索、格式转换、日志清理、局部代码修改可以用低成本模型;安全敏感任务要走专门策略,不要让通用 agent 直接越权。
对 Hermes 这类本地 agent 体系,OpenAI 路线的启发是:模型族路由很重要。Sol/Terra/Luna 这种分层意味着系统应记录真实 model、base_url、fallback 和成本,不要只显示“GPT-5.6”。如果一个任务实际由 Terra/Luna 或 fallback 模型完成,报告和日志必须可追溯。
Anthropic 路线的启发是:高风险域要有明确运行态。Fable 5 的 refusal/fallback、30 天 retention、Mythos trusted access 都说明,agent runtime 不能把拒答当错误,也不能把 fallback 当透明替换。日志里要记录触发原因、接管模型、重试策略、成本信用和最终责任边界。
落地建议很明确:
- 不要把 GPT-5.6 Sol 或 Fable 5 设成全局默认。它们应该进入 P0/P1 高复杂任务 lane。
- 把长程 agent 任务做成可观测流程。必须有任务预算、工具权限、进度事件、文件 diff、测试结果和人工 checkpoint。
- 建立模型真实路径审计。记录 provider、model、base_url、fallback、API mode、stop_reason、token cost。
- 保留本地 eval 集。不要看发布会 benchmark 决策,要用自己的 repo、自己的报告、自己的多工具任务跑 A/B。
- 高敏数据默认不上前沿云模型。源码、漏洞、客户数据、科研资料必须先过 retention 与数据边界审查。
十二、反方观点:这波发布可能有相当强的政策叙事与营销包装
核心判断:GPT-5.6 与 Fable/Mythos 的发布都不能只按技术进步理解,它们也是政策、融资、监管和市场竞争叙事的一部分。
反方观点一:模型公司有动力把安全风险说得更高,以证明自己负责任、争取监管话语权、塑造进入门槛。Anthropic 的 Mythos/Fable 叙事尤其明显:先通过 Project Glasswing 强调高风险能力只给防御者,再用 Fable 5 向市场交付公版能力。这可能既是真实安全需要,也是一种商业合法性构建。[6][7]
反方观点二:OpenAI 的 GPT-5.6 预览与政府 gate 也可能放大“前沿能力受控”的稀缺感。OpenAI 官方资料确实说明有限预览和后续数周扩大可用,但第三方文章中关于政府审批、特定时间、价格与 benchmark 的部分需要谨慎对待。能引用官方的引用官方,不能把 explainx、Substack、社区帖当作同等级事实。
反方观点三:benchmark 越来越难直接代表真实生产收益。GPT-5.6 的 cyber eval、Fable 5 的 coding 和长任务案例都很强,但真实企业收益取决于权限、工具、数据、CI、review 和流程成熟度。没有 harness 的强模型,只是昂贵聊天窗口;没有验收的 autonomous agent,则可能放大风险。
这不意味着这波发布没价值。恰恰相反,价值很大,但要把它看成“前沿模型商业化制度实验”,而不是简单的模型榜单更新。
十三、未来 6–18 个月趋势:前沿模型会按能力域、客户身份和运行环境重新分层
核心判断:未来大模型可用性的主线不是完全开放,而是更细颗粒度的能力分级、身份分级、平台分发和安全审计。
第一,模型族路由会成为默认。OpenAI 的 Sol/Terra/Luna 已经把能力、速度、成本拆开;Anthropic 也有 Fable/Mythos/Opus/Sonnet/Haiku 的层级。企业平台会越来越少直接问“用哪个模型”,而是按任务自动选择预算与风险等级。
第二,前沿能力会更多走 trusted access。Mythos 5 的 Project Glasswing 是典型例子:完整 cyber/bio 等能力不会轻易公放,而会进入受信任机构、政府合作、关键基础设施、防御者项目和审查计划。[4][6]
第三,数据留存和安全监测会成为前沿模型的默认代价。Anthropic 已经明确 Fable/Mythos 这类模型有 30 天留存,且不支持 ZDR;OpenAI System Card 也展示了更强部署监测与分类器。企业必须接受一个现实:越强的模型,越可能伴随更强的审计和数据约束。[3][5][11]
第四,agent harness 会成为护城河。模型本体升级很快,但能不能安全执行长任务,取决于工具权限、上下文管理、内存、日志、测试、回滚、预算和人机协作。OpenAI 试图把这些纳入 ChatGPT/Codex/Frontier,Anthropic 试图通过 Claude Code、Fable、Enterprise 和云合作进入企业流程。[12][13]
第五,监管和地缘政治会更直接影响产品节奏。Fable/Mythos 访问暂停声明、GPT-5.6 有限预览、Project Glasswing 与美国政府合作,都说明模型发布已经不只是公司产品决策,而是产业政策、国家安全和商业竞争的交叉点。[2][4][7]
十四、建议:怎么评估、怎么接入、怎么避免被发布会叙事带跑
核心判断:短期不要争论“谁绝对更强”,应该做自己的任务级 eval,并把成本、fallback、数据留存和验收纳入评分。
如果是技术团队,我建议用三周做一轮真实评估。
第一周,选任务。挑 8–12 个真实任务,覆盖代码迁移、复杂 bug、长文档研究、视觉/PDF 理解、多工具 agent、低敏业务自动化。每个任务写清验收:测试是否通过、人工 review 缺陷数、引用是否可审计、运行时间、token 成本、fallback/refusal 触发次数。
第二周,做 A/B/C。至少比较 GPT-5.6 可用层、Claude Fable 5、当前主力模型和低成本模型组合。不要只看最终答案,而要记录 wall-clock、人工干预轮数、失败恢复、工具调用次数、输出可验证性、成本和合规风险。
第三周,做路由决策。若旗舰模型在某类 P0 任务上显著减少人工监督,就放入受控 orchestrator lane;若提升不稳定但某些子任务强,就只作为人工点选模型;若数据留存或访问限制过不了,就暂缓生产,只保留离线/低敏评估。
如果是产品或战略团队,我建议看三件事:
- OpenAI 是否把 GPT-5.6 平滑带入 ChatGPT/Codex/API 并维持稳定体验。如果可以,它的平台优势会继续扩大。
- Anthropic 是否能降低 Fable 5 的 false positive、retention 阻力和高成本感知。如果可以,它在企业深任务中的优势会更硬。
- 企业 agent runtime 谁掌控。未来利润不只在模型 token,而在任务系统、权限系统、审计系统和评估系统。
一句话收口:GPT-5.6 更像 OpenAI 把通用 AI 平台上限再次抬高;Fable 5 更像 Anthropic 把“危险但有价值的前沿能力”做成可销售、可管制、可审计的企业产品。未来真正重要的不是谁在单个 benchmark 上领先,而是谁能让强模型在真实组织里可用、可控、可付费、可追责。
参考来源
- OpenAI:Previewing GPT-5.6 Sol: a next-generation model。https://openai.com/index/previewing-gpt-5-6-sol
- OpenAI Help Center:A preview of GPT-5.6 Sol, Terra, and Luna。https://help.openai.com/en/articles/20001325-a-preview-of-gpt-56-sol-terra-and-luna
- OpenAI Deployment Safety:GPT-5.6 Preview System Card。https://deploymentsafety.openai.com/gpt-5-6-preview
- Anthropic:Claude Fable 5 and Claude Mythos 5。https://www.anthropic.com/news/claude-fable-5-mythos-5
- Anthropic API Docs:Introducing Claude Fable 5 and Claude Mythos 5。https://platform.claude.com/docs/en/about-claude/models/introducing-claude-fable-5-and-claude-mythos-5
- Anthropic:Project Glasswing。https://www.anthropic.com/glasswing
- Anthropic:Statement on the US government directive to suspend access to Claude Fable 5 and Claude Mythos 5。https://www.anthropic.com/news/fable-mythos-access
- Anthropic:Claude Mythos。https://www.anthropic.com/claude/mythos
- Anthropic:Claude Fable。https://www.anthropic.com/claude/fable
- Anthropic Docs:Effort / adaptive thinking / Fable 5 prompting。https://platform.claude.com/docs/en/build-with-claude/effort
- AWS News Blog:Anthropic Claude Fable 5 on AWS。https://aws.amazon.com/blogs/aws/anthropic-claude-fable-5-on-aws-mythos-class-capabilities-with-built-in-safeguards-now-available
- OpenAI:How agents are transforming work。https://openai.com/index/how-agents-are-transforming-work
- OpenAI:The next phase of enterprise AI。https://openai.com/index/next-phase-of-enterprise-ai
- BBC:Version of AI tool “too powerful for public” released to public。https://www.bbc.co.uk/news/articles/ckg701v1dp6o
- Politico:Anthropic releases a less-powerful version of its most advanced model。https://www.politico.com/news/2026/06/09/anthropic-makes-mythos-level-ai-model-available-to-the-public-00954829
- Reuters:Anthropic raises $65 billion, now valued at $965 billion。https://www.reuters.com/business/anthropic-raises-65-billion-now-valued-965-billion-2026-05-28
- CNBC:Anthropic No. 1 on CNBC Disruptor 50 list 2026。https://www.cnbc.com/2026/05/19/anthropic-cnbc-disruptor-50-ranking.html
- CNBC:Anthropic tops OpenAI as most valuable AI startup。https://www.cnbc.com/2026/05/28/anthropic-open-ai-startup-value.html
- Epoch AI:Anthropic could surpass OpenAI in annualized revenue by mid-2026。https://epoch.ai/data-insights/anthropic-openai-revenue
置信度与数据限制
- 高置信:GPT-5.6 有限预览、Sol/Terra/Luna 定位、暂不进入 ChatGPT、后续数周扩大可用;Fable 5 / Mythos 5 的发布时间、同底座关系、fallback、10/50 美元定价、Project Glasswing、30 天留存与 Fable 公版安全限制,均来自官方或云厂商文档。
- 中高置信:两家公司战略方向、agentic work 趋势、Codex/Claude Code 作为企业入口的判断,来自官方文章、产品文档与多家媒体报道交叉。
- 中置信:估值、年化收入 run rate、市场份额和增长速度,主要来自 Reuters/CNBC/Epoch AI 等公开报道或整理,适合趋势判断,不等于审计财务。
- 低置信/未采用为强事实:社区帖、SEO 聚合站、未能抓取全文的社媒/Reddit、非官方价格和 benchmark 细节。本文未直接调用 GPT-5.6 或 Fable 5 做本地实测,因此不把任何“手感体验”写成一手结论。
免责声明
本文基于公开资料和已有研究归档整理,不构成投资、采购、合规或安全建议。涉及企业接入、数据留存、网络安全、生物安全、源码/客户数据处理的决策,应以组织内部法务、安全、供应商审查和真实任务评测为准。