2026 年 4 月 16 日,Anthropic 發布了 Claude Opus 4.7 — 在 coding、vision、自主任務執行上都有顯著提升的新旗艦模型。但更耐人尋味的是,Anthropic 同時公開承認:他們手上有一個更強的模型 Mythos,但因為安全考量不敢放出來。
這篇整理 Opus 4.7 的重點升級、實際數據,以及這次發布背後值得關注的訊號。
核心升級##
Coding 能力大幅提升###
Opus 4.7 在進階軟體工程任務上的表現是這次升級的最大亮點。Anthropic 的說法是:「過去需要近距離監督的困難 coding 任務,現在可以放心交給 Opus 4.7 自主完成。」
具體改進包括:
- 長時間自主任務的穩定度和一致性提升
- 指令遵從更精確,不再過度腦補意圖
- 自我驗證 — 回報結果前會主動檢查自己的輸出
高解析度視覺###
這是第一個支援高解析度圖片的 Claude 模型:
| 規格 | Opus 4.6 | Opus 4.7 |
|---|---|---|
| 最大長邊 | 1,568 px | 2,576 px |
| 解析度 | ~1.15 MP | ~3.75 MP |
| 視覺導航準確率(無工具) | 57.7% | 79.5% |
約 3 倍的視覺容量提升,對需要讀取螢幕截圖、文件掃描、UI 測試的工作流程影響很大。
新的 Effort Level 與 Task Budgets###
Opus 4.7 新增了 xhigh effort level,介於 high 和 max 之間,讓開發者在推理深度和延遲之間有更細緻的控制。
另外正在測試的 Task Budgets 功能,讓開發者可以設定長任務的推理資源上限 — 避免模型在一個子問題上消耗過多 token。
Benchmark 數據##
與競品比較###
| Benchmark | Opus 4.7 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|
| SWE-bench Verified | 87.6% | — | < 87.6% |
| SWE-bench Pro | 64.3% | 57.7% | 54.2% |
Opus 4.7 在 agentic coding、scaled tool-use、computer use、金融分析等領域的 benchmark 上超越了 GPT-5.4 和 Gemini 3.1 Pro,重新拿回公開可用模型的領先地位。
與前代比較###
| Benchmark | Opus 4.6 | Opus 4.7 | 提升 |
|---|---|---|---|
| SWE-bench Verified | 80.8% | 87.6% | +6.8 |
| SWE-bench Pro | 53.4% | 64.3% | +10.9 |
SWE-bench Pro 提升了近 11 個百分點,這代表在真正困難的工程問題上,模型的解題能力有實質性的進步。
Mythos:房間裡的大象##
這次發布最特別的地方,是 Anthropic 主動承認 Opus 4.7 不及他們尚未公開的 Mythos 模型。
- Mythos Preview 於 4 月 7 日以 Project Glasswing 限量釋出,僅開放給少數企業夥伴
- SWE-bench Verified 達到 93.9%,比 Opus 4.7 高出 6.3 個百分點
- 限制釋出的原因是 cyber 能力過強,存在安全風險
Anthropic 甚至表示,在訓練 Opus 4.7 的過程中,他們刻意嘗試降低部分 cyber 能力。
這是一個有趣的訊號:AI 公司開始公開承認「我們有更強的東西,但我們選擇不放出來」。不管這是真正的安全考量還是行銷策略,這種透明度在業界是罕見的。
定價與可用性##
| 項目 | 內容 |
|---|---|
| Input | $5 / M tokens |
| Output | $25 / M tokens |
| Model ID | claude-opus-4-7 |
| 可用平台 | Claude 全產品、API、Amazon Bedrock、Google Vertex AI、Microsoft Foundry |
定價與 Opus 4.6 完全相同,沒有因為升級而加價。
社群回饋##
開發者認可的部分:
- 複雜 coding 任務的自主完成度明顯提升,可以更放心地交給它長時間運作
- 指令遵從更精確 — 你說什麼它做什麼,不再自作主張
引發討論的部分:
xhigheffort 的處理時間可能是標準模式的數倍,token 消耗也更高- 部分開發者反映 「AI shrinkflation」 — 覺得模型變得更保守、不再主動補充
- 更嚴格的指令遵從是雙面刃:對需要精確控制的場景是優點,但對習慣模型「懂你意思」的使用者來說需要適應
我的觀察##
Opus 4.7 不是一次革命性的升級,但它在最重要的維度上做出了實質改進 — coding 和長時間自主任務。對於正在建構 AI agent 或依賴 Claude 做 production 工作的開發者來說,這些改進是真實且有感的。
而 Mythos 的存在,讓這次發布多了一層意味:公開可用的最強模型,已經不再是這些公司手上最強的模型了。 這個趨勢值得持續關注。
參考來源:
- Introducing Claude Opus 4.7 — Anthropic
- Anthropic releases Claude Opus 4.7 — Axios
- Claude Opus 4.7 leads on SWE-bench — TNW
- Anthropic releases Claude Opus 4.7 — VentureBeat
- Anthropic rolls out Claude Opus 4.7 — CNBC
- Claude Opus 4.7 — GitHub Changelog
留言 (0)
登入後即可留言