Danny

AI agent 怎麼用:Sonnet 5 定價降了,然後呢?

文章摘要

從 Claude Sonnet 5 的 Sonnet 層定價出發,拆解新AI模型解決了什麼與其缺點,三個關鍵結構指標:驗收機制、任務交接鏈與自動修正

AI agent 怎麼用:Sonnet 5 定價降了,然後呢?

meta description: 從 Claude Sonnet 5 的 Sonnet 層定價(AI 跑任務服務費用)出發,這篇幫你拆解新模型解決了什麼、沒解決什麼,並整理三個關鍵結構指標——驗收機制、任務交接鏈與自動修正——讓你找到 AI agent 工作流的下一步判斷框架。

如果你看到 Anthropic,也就是 Claude 背後的 AI 公司,在 6 月 30 日發布 Sonnet 5 的新聞,第一反應是「這次要不要換?」——我懂那個感覺。
我自己每次看到新模型定價,第一件事也是打開 API 費用試算表,先看跑同樣任務能省多少。

但這篇不是要說「不要換」或「快換」。
真正重要的問題是:Sonnet 5 降低的是哪個門檻?那個門檻是不是你現在卡住的那個?

如果你只是用 AI 做單點任務,Sonnet 5 確實是好消息。
但如果你想把 AI agent 變成穩定工作流,真正該看的不是模型定價,而是驗收機制、任務交接鏈與自動修正能力。

Sonnet 5 解決了什麼?

Sonnet 5 於 2026 年 6 月 30 日正式發布,introductory 定價為 input 每百萬 tokens 2 美元、output 每百萬 tokens 10 美元。
tokens 是 AI 處理文字的最小單位,可以理解成 AI 跑任務時的計價基礎。
這個優惠價格會持續到 8 月底,之後將回到 input 每百萬 tokens 3 美元、output 每百萬 tokens 15 美元。

這次真正有意義的地方在於,Sonnet 5 把過去接近 Opus 層級的部分 agentic 能力,壓到了 Sonnet 層的價格帶。
agentic 指的是 AI 可以不只回答問題,而是能自己執行任務、呼叫工具、處理多步驟流程。

從跑分測試來看,Sonnet 5 確實比上一代 Sonnet 4.6 明顯提升:

模型 SWE-bench Verified Agentic Coding Terminal-Bench 2.1
Claude Sonnet 5 72.7% 63.2% 80.4%
Claude Opus 4.8 79.4% 69.2% 74.6%
Claude Sonnet 4.6 62.3% 58.1% 約 59.7%

Sonnet 5 在 Terminal-Bench 2.1 上甚至超越 Opus 4.8,代表它在終端機自動化任務上表現突出。
但在 SWE-bench Verified 和 Agentic Coding 上,Opus 4.8 仍領先約 6 至 7 個百分點。

如果再把 2026 年主要模型定價放在一起看,差異其實已經縮小:

模型 Input 定價 Output 定價
Gemini 3.1 Pro $2/M tokens $12/M tokens
GPT-5.2 $1.75/M tokens $14/M tokens
Claude Sonnet 5 intro $2/M tokens $10/M tokens

三家旗艦模型的價格已高度趨同。
這代表 2026 年的 AI agent 決策,差異化因素已不在定價本身,而在你的工作流能不能把模型能力轉成穩定產出。

跑分測試能信多少?

很多人看到 Sonnet 5 的跑分,會直接下結論:「那就換新模型。」
但這裡有一個關鍵問題:跑分測試只能當入場門票,不能直接當正式環境結果。

SWE-bench Verified 是目前主流的 AI 程式能力測試標準,但它本身的有效性受到質疑。
OpenAI 在 2026 年 2 月的審計發現,59.4% 最難任務的測試,在 bug 未修復時也會通過;約三分之一的問題答案,已經包含在程式碼 comment 裡。
此外,企業 AI 系統的 lab benchmark 分數與正式部署表現之間,存在約 37% 的 benchmark-to-production gap。

這代表 Sonnet 5 在 SWE-bench Verified 上的 72.7%,到了你的正式環境裡,可能不會完整兌現。
正式環境有更多限制,例如 legacy code、內部規範、權限設定、資料品質、測試環境、跨團隊協作與人工 review。
這些因素都不是單一 benchmark 能完整反映的。

所以,問題不是 Sonnet 5 好不好。
問題是:你有沒有自己的驗收指標?

真正該看的不是模型在公開測試拿幾分,而是你的 AI agent 工作流 在自己的環境裡:

  1. 任務完成率是多少?

  2. 失敗時能不能恢復?

  3. 修正後有沒有真的變好?

  4. 產出能不能進入下一個工作步驟?

  5. 最後成果是否通過人或系統的驗收?

跑分可以幫你篩選模型,但不能取代自己的驗收機制。

AI agent 三階段差在哪裡?

arXiv 學術研究追蹤了 24 個月的模型迭代,得到一個很值得冷靜看的結論:agent 整體可靠性未見顯著改善。
這不是某一家模型的問題,而是整個產業共同面臨的高原期。

原因在於,多步驟任務會把錯誤機率放大。
假設每一步成功率是 85%,如果一個任務需要跑 8 個步驟,整條流程完成率只剩約 27%。
也就是說,AI agent 不是每一步看起來不錯就夠了,真正困難的是整條工作流能不能穩定跑完。

McKinsey 全球調查也指出,78% 企業已在至少一個業務功能使用 AI,但只有 6% 看到企業層面的財務顯著影響。
拉開差距的不是「有沒有用 AI」,而是有沒有做工作流程重構。
高表現企業進行工作流程重構的比例,是其他公司的 2.8 倍。

這兩組數字指向同一件事:問題不只是模型不夠強,而是結構不到位。
我會把 AI agent 使用分成三個階段:

階段 核心行為 需要的東西 Sonnet 5 降低了哪個門檻?
第一階段:工具化 用 AI 做單點任務 可用模型、合理定價 降低入場成本
第二階段:生產系統化 多個 AI 角色分工接力 結構化 handoff、驗收機制 需要自己建
第三階段:高速迭代 AI 記住失敗,根據回饋修正 回饋迴路、版本管理、自動修正 需要自己建

Sonnet 5 讓更多人更便宜地進入第一階段。
這是好消息。
但第二階段與第三階段需要的東西,不在模型定價裡。

我的實測踩雷:便宜不等於穩定

我自己跑過一條三角色接力生產線:Marco Polo 負責關鍵字研究與背景資料,The Bard 接 research packet 寫 SEO 文章與社群貼文,CEO 做最後品質把關。
這條流程看起來很像第二階段,因為 AI 角色之間有分工,也有任務交接。

但最早版本,我把品質把關也交給 AI 自動化。
結果有一週,同樣的引用錯誤被連續輸出三篇。
問題不是 AI 完全不會寫,而是「沒有人在中間看一眼」,導致錯誤從一篇變成五篇,全線散出去。

後來我把 CEO 的 gate 改回人工掃一遍,流程才真正穩下來。
這個經驗讓我意識到:AI agent 工作流不是越自動越好,而是要知道哪些節點必須驗收。

Fiddler AI 的分析也印證了這件事:88% 在 demo 中有效的企業 agent,在真實工作流程中失效。
這不是 demo 一定做假,而是 demo 環境和生產環境的結構差異,通常沒有被設計進去。

Sonnet 5 更便宜,不會改變這個結論。
如果你的 AI agent 還是「一個 prompt 跑到底」,便宜只是讓你更便宜地重複同樣的失敗。

從這次踩雷,我學到的是:單一 prompt 的上限很低,結構化 handoff 才能穩定生產。
這個結論適用於任何模型,不管它多便宜、多新,或 benchmark 分數多漂亮。

AI agent 怎麼用?先建三個結構

回到最實際的問題:AI agent 怎麼用,才不會停在玩工具?

我會先建三個結構,而不是先追最新模型。

第一,驗收機制
每個關鍵步驟都要定義「什麼叫做做對」。
例如 SEO 文章不是只要寫完,而是要確認關鍵字是否自然出現、段落是否符合搜尋意圖、內部連結是否合理、資訊是否需要查證。
沒有驗收機制,AI agent 就算跑完任務,也不代表產出可用。

第二,任務交接鏈
一個 AI 步驟做完後,要用固定格式交接給下一步。
例如 research agent 不能只丟一段散文給 writing agent,而要提供清楚的 research packet,包括背景、資料來源、關鍵觀點、不可碰的錯誤、目標讀者與文章角度。
這才是 handoff,不是單純「丟給 AI 繼續接」。

第三,自動修正能力
AI agent 不能每次都從第一版重來。
如果上一次錯在引用格式,下一次流程要能記住這個錯誤,並自動加入檢查。
如果上一次 SEO 標題太空泛,下一次標題生成就要自動套入更具體的判斷條件。
這才是從第二階段走向第三階段的關鍵。

簡單來說,模型負責能力,流程負責穩定性。
Sonnet 5 提升的是模型能力與成本效率,但 AI agent 能不能真正進入生產系統,取決於你有沒有把驗收、交接與修正設計出來。

Sonnet 5 值不值得切換?

Sonnet 5 值不值得切換,要看你現在卡在哪個階段。

如果你在第一階段,也就是用 AI 做單點任務,例如改文案、寫信、整理資料、寫小段程式、查錯誤訊息,Sonnet 5 是好消息。
它成本更低,能力也比 Sonnet 4.6 明顯提升。
對這類使用者來說,切換是合理的。

如果你已經想進第二階段或第三階段,重點就不是單純換模型。
你應該先問三個問題:

  1. 你的 agent 有驗收機制嗎?
    也就是在關鍵節點,有沒有檢查輸出是不是你要的。

  2. 一個步驟做完後,有沒有結構化交接給下一步?
    不是直接丟給 AI 繼續接,而是有明確 handoff 格式。

  3. AI 有沒有辦法記住上次失敗,並在下次自動修正?
    也就是能不能跑到第十版,而不是每次都從第一版重來。

便宜讓你進場,但進場之後拉開差距的是迭代能力,不是工具能力。

2026 年三家旗艦模型定價趨同,反而是一件好事。
這代表你不需要把所有決策都押在定價上,可以把更多精力放在建立自己的驗收與 handoff 結構。
那才是長期真正差異化的地方。

自我檢查:你的 AI 使用卡在哪一階段?

你可以用三個問題快速判斷自己現在的位置:

  1. 你現在的 AI 使用,是在第幾個階段?
    如果每次都是單點 prompt,代表還在第一階段。
    如果已經有多步驟流程,代表開始進入第二階段。
    如果流程會記住錯誤並自動修正,才接近第三階段。

  2. 你的 agent 工作流裡,有沒有至少一個人工或自動驗收點?
    如果沒有,流程看起來再自動,也容易把錯誤放大。

  3. 如果 agent 在第三步失敗,你的流程可以從第三步重跑,還是得從第一步重來?
    如果只能從第一步重來,代表流程還沒有真正模組化,也還沒有形成穩定的任務交接鏈。

這三個問題比「Sonnet 5 要不要換」更重要。
因為模型會一直更新、價格會一直變,但工作流結構一旦建起來,才會變成你自己的長期能力。

常見問題

Claude Sonnet 5 值得用嗎?
如果你在第一階段,也就是用 AI 做單點任務,Sonnet 5 值得試。
它在 introductory 定價期間成本更低,能力也比 Sonnet 4.6 大幅提升。
但如果你在第二、三階段,更急的不是換模型,而是把驗收機制與 handoff 結構建起來。

Sonnet 5 跟 Opus 4.8 差在哪裡?
SWE-bench Verified 上,Sonnet 5 為 72.7%,仍低於 Opus 4.8 的 79.4%。
Agentic Coding 上,兩者差距約 6 個百分點。
但 Terminal-Bench 2.1 上,Sonnet 5 以 80.4% 反超 Opus 4.8 的 74.6%。
差距已經縮小,但沒有完全消失。
此外,benchmark 數字與正式環境存在約 37% 落差,不應直接把跑分當部署預測。

AI agent 怎麼開始建工作流?
從最容易驗收的環節開始。
先選一個你能手動確認輸出正確的 agent 步驟,例如資料整理、標題生成、SEO 大綱檢查或報表摘要。
等這一步穩定後,再設計交接給下一個步驟。
不要一開始就想設計整條全自動流程。

跑分測試可以信嗎?
方向性可以信,細節數字要打折。
SWE-bench 本身有有效性爭議,例如約 59.4% 最難任務在 bug 未修時仍會通過。
此外,lab 跑分與企業實際部署存在約 37% 落差。
因此,跑分可以當模型初篩,但不能取代自己的驗收指標。

真正的差距在哪裡?
真正差距不在用了哪個模型,而在有沒有做工作流程重構。
McKinsey 全球調查顯示,AI 高表現者與其他公司的差異,不是模型選擇,而是有沒有重新設計流程。
能建立驗收機制、任務交接鏈與自動修正能力的組織,才是第三階段玩家。

結論:Sonnet 5 降低入場成本,但 AI agent 的勝負在工作流

Sonnet 5 的發布,確實讓 AI agent 的使用門檻降低。
它用較低價格,提供比上一代更強的任務處理能力,也在部分終端機自動化測試上超越 Opus 4.8。
對單點任務使用者來說,這是值得關注的升級。

但對想要建立 AI agent 工作流的人來說,真正問題不是「模型要不要換」,而是「流程有沒有結構」。
如果沒有驗收機制、沒有任務交接鏈、沒有自動修正能力,新模型只會讓你更快、更便宜地跑出不穩定結果。

2026 年模型能力與定價都在快速趨同。
接下來真正拉開差距的,不是誰用最新模型,而是誰能把 AI agent 變成可驗收、可交接、可修正的生產系統。
便宜讓你進場,迭代能力才讓你留下來。

【延伸閱讀】