Danny 2026-07-05

AI agent 怎麼用：Sonnet 5 定價降了，然後呢？

文章摘要

從 Claude Sonnet 5 的 Sonnet 層定價出發，拆解新AI模型解決了什麼與其缺點，三個關鍵結構指標：驗收機制、任務交接鏈與自動修正

AI agent 怎麼用：Sonnet 5 定價降了，然後呢？

meta description: 從 Claude Sonnet 5 的 Sonnet 層定價（AI 跑任務服務費用）出發，這篇幫你拆解新模型解決了什麼、沒解決什麼，並整理三個關鍵結構指標——驗收機制、任務交接鏈與自動修正——讓你找到 AI agent 工作流的下一步判斷框架。

如果你看到 Anthropic，也就是 Claude 背後的 AI 公司，在 6 月 30 日發布 Sonnet 5 的新聞，第一反應是「這次要不要換？」——我懂那個感覺。
我自己每次看到新模型定價，第一件事也是打開 API 費用試算表，先看跑同樣任務能省多少。

但這篇不是要說「不要換」或「快換」。
真正重要的問題是：Sonnet 5 降低的是哪個門檻？那個門檻是不是你現在卡住的那個？

如果你只是用 AI 做單點任務，Sonnet 5 確實是好消息。
但如果你想把 AI agent 變成穩定工作流，真正該看的不是模型定價，而是驗收機制、任務交接鏈與自動修正能力。

Sonnet 5 解決了什麼？

Sonnet 5 於 2026 年 6 月 30 日正式發布，introductory 定價為 input 每百萬 tokens 2 美元、output 每百萬 tokens 10 美元。
tokens 是 AI 處理文字的最小單位，可以理解成 AI 跑任務時的計價基礎。
這個優惠價格會持續到 8 月底，之後將回到 input 每百萬 tokens 3 美元、output 每百萬 tokens 15 美元。

這次真正有意義的地方在於，Sonnet 5 把過去接近 Opus 層級的部分 agentic 能力，壓到了 Sonnet 層的價格帶。
agentic 指的是 AI 可以不只回答問題，而是能自己執行任務、呼叫工具、處理多步驟流程。

從跑分測試來看，Sonnet 5 確實比上一代 Sonnet 4.6 明顯提升：

模型	SWE-bench Verified	Agentic Coding	Terminal-Bench 2.1
Claude Sonnet 5	72.7%	63.2%	80.4%
Claude Opus 4.8	79.4%	69.2%	74.6%
Claude Sonnet 4.6	62.3%	58.1%	約 59.7%

Sonnet 5 在 Terminal-Bench 2.1 上甚至超越 Opus 4.8，代表它在終端機自動化任務上表現突出。
但在 SWE-bench Verified 和 Agentic Coding 上，Opus 4.8 仍領先約 6 至 7 個百分點。

如果再把 2026 年主要模型定價放在一起看，差異其實已經縮小：

模型	Input 定價	Output 定價
Gemini 3.1 Pro	$2/M tokens	$12/M tokens
GPT-5.2	$1.75/M tokens	$14/M tokens
Claude Sonnet 5 intro	$2/M tokens	$10/M tokens

三家旗艦模型的價格已高度趨同。
這代表 2026 年的 AI agent 決策，差異化因素已不在定價本身，而在你的工作流能不能把模型能力轉成穩定產出。

跑分測試能信多少？

很多人看到 Sonnet 5 的跑分，會直接下結論：「那就換新模型。」
但這裡有一個關鍵問題：跑分測試只能當入場門票，不能直接當正式環境結果。

SWE-bench Verified 是目前主流的 AI 程式能力測試標準，但它本身的有效性受到質疑。
OpenAI 在 2026 年 2 月的審計發現，59.4% 最難任務的測試，在 bug 未修復時也會通過；約三分之一的問題答案，已經包含在程式碼 comment 裡。
此外，企業 AI 系統的 lab benchmark 分數與正式部署表現之間，存在約 37% 的 benchmark-to-production gap。

這代表 Sonnet 5 在 SWE-bench Verified 上的 72.7%，到了你的正式環境裡，可能不會完整兌現。
正式環境有更多限制，例如 legacy code、內部規範、權限設定、資料品質、測試環境、跨團隊協作與人工 review。
這些因素都不是單一 benchmark 能完整反映的。

所以，問題不是 Sonnet 5 好不好。
問題是：你有沒有自己的驗收指標？

真正該看的不是模型在公開測試拿幾分，而是你的 AI agent 工作流 在自己的環境裡：

任務完成率是多少？
失敗時能不能恢復？
修正後有沒有真的變好？
產出能不能進入下一個工作步驟？
最後成果是否通過人或系統的驗收？

跑分可以幫你篩選模型，但不能取代自己的驗收機制。

AI agent 三階段差在哪裡？

arXiv 學術研究追蹤了 24 個月的模型迭代，得到一個很值得冷靜看的結論：agent 整體可靠性未見顯著改善。
這不是某一家模型的問題，而是整個產業共同面臨的高原期。

原因在於，多步驟任務會把錯誤機率放大。
假設每一步成功率是 85%，如果一個任務需要跑 8 個步驟，整條流程完成率只剩約 27%。
也就是說，AI agent 不是每一步看起來不錯就夠了，真正困難的是整條工作流能不能穩定跑完。

McKinsey 全球調查也指出，78% 企業已在至少一個業務功能使用 AI，但只有 6% 看到企業層面的財務顯著影響。
拉開差距的不是「有沒有用 AI」，而是有沒有做工作流程重構。
高表現企業進行工作流程重構的比例，是其他公司的 2.8 倍。

這兩組數字指向同一件事：問題不只是模型不夠強，而是結構不到位。
我會把 AI agent 使用分成三個階段：

階段	核心行為	需要的東西	Sonnet 5 降低了哪個門檻？
第一階段：工具化	用 AI 做單點任務	可用模型、合理定價	降低入場成本
第二階段：生產系統化	多個 AI 角色分工接力	結構化 handoff、驗收機制	需要自己建
第三階段：高速迭代	AI 記住失敗，根據回饋修正	回饋迴路、版本管理、自動修正	需要自己建

Sonnet 5 讓更多人更便宜地進入第一階段。
這是好消息。
但第二階段與第三階段需要的東西，不在模型定價裡。

我的實測踩雷：便宜不等於穩定

我自己跑過一條三角色接力生產線：Marco Polo 負責關鍵字研究與背景資料，The Bard 接 research packet 寫 SEO 文章與社群貼文，CEO 做最後品質把關。
這條流程看起來很像第二階段，因為 AI 角色之間有分工，也有任務交接。

但最早版本，我把品質把關也交給 AI 自動化。
結果有一週，同樣的引用錯誤被連續輸出三篇。
問題不是 AI 完全不會寫，而是「沒有人在中間看一眼」，導致錯誤從一篇變成五篇，全線散出去。

後來我把 CEO 的 gate 改回人工掃一遍，流程才真正穩下來。
這個經驗讓我意識到：AI agent 工作流不是越自動越好，而是要知道哪些節點必須驗收。

Fiddler AI 的分析也印證了這件事：88% 在 demo 中有效的企業 agent，在真實工作流程中失效。
這不是 demo 一定做假，而是 demo 環境和生產環境的結構差異，通常沒有被設計進去。

Sonnet 5 更便宜，不會改變這個結論。
如果你的 AI agent 還是「一個 prompt 跑到底」，便宜只是讓你更便宜地重複同樣的失敗。

從這次踩雷，我學到的是：單一 prompt 的上限很低，結構化 handoff 才能穩定生產。
這個結論適用於任何模型，不管它多便宜、多新，或 benchmark 分數多漂亮。

AI agent 怎麼用？先建三個結構

回到最實際的問題：AI agent 怎麼用，才不會停在玩工具？

我會先建三個結構，而不是先追最新模型。

第一，驗收機制。
每個關鍵步驟都要定義「什麼叫做做對」。
例如 SEO 文章不是只要寫完，而是要確認關鍵字是否自然出現、段落是否符合搜尋意圖、內部連結是否合理、資訊是否需要查證。
沒有驗收機制，AI agent 就算跑完任務，也不代表產出可用。

第二，任務交接鏈。
一個 AI 步驟做完後，要用固定格式交接給下一步。
例如 research agent 不能只丟一段散文給 writing agent，而要提供清楚的 research packet，包括背景、資料來源、關鍵觀點、不可碰的錯誤、目標讀者與文章角度。
這才是 handoff，不是單純「丟給 AI 繼續接」。

第三，自動修正能力。
AI agent 不能每次都從第一版重來。
如果上一次錯在引用格式，下一次流程要能記住這個錯誤，並自動加入檢查。
如果上一次 SEO 標題太空泛，下一次標題生成就要自動套入更具體的判斷條件。
這才是從第二階段走向第三階段的關鍵。

簡單來說，模型負責能力，流程負責穩定性。
Sonnet 5 提升的是模型能力與成本效率，但 AI agent 能不能真正進入生產系統，取決於你有沒有把驗收、交接與修正設計出來。

Sonnet 5 值不值得切換？

Sonnet 5 值不值得切換，要看你現在卡在哪個階段。

如果你在第一階段，也就是用 AI 做單點任務，例如改文案、寫信、整理資料、寫小段程式、查錯誤訊息，Sonnet 5 是好消息。
它成本更低，能力也比 Sonnet 4.6 明顯提升。
對這類使用者來說，切換是合理的。

如果你已經想進第二階段或第三階段，重點就不是單純換模型。
你應該先問三個問題：

你的 agent 有驗收機制嗎？
也就是在關鍵節點，有沒有檢查輸出是不是你要的。
一個步驟做完後，有沒有結構化交接給下一步？
不是直接丟給 AI 繼續接，而是有明確 handoff 格式。
AI 有沒有辦法記住上次失敗，並在下次自動修正？
也就是能不能跑到第十版，而不是每次都從第一版重來。

便宜讓你進場，但進場之後拉開差距的是迭代能力，不是工具能力。

2026 年三家旗艦模型定價趨同，反而是一件好事。
這代表你不需要把所有決策都押在定價上，可以把更多精力放在建立自己的驗收與 handoff 結構。
那才是長期真正差異化的地方。

自我檢查：你的 AI 使用卡在哪一階段？

你可以用三個問題快速判斷自己現在的位置：

你現在的 AI 使用，是在第幾個階段？
如果每次都是單點 prompt，代表還在第一階段。
如果已經有多步驟流程，代表開始進入第二階段。
如果流程會記住錯誤並自動修正，才接近第三階段。
你的 agent 工作流裡，有沒有至少一個人工或自動驗收點？
如果沒有，流程看起來再自動，也容易把錯誤放大。
如果 agent 在第三步失敗，你的流程可以從第三步重跑，還是得從第一步重來？
如果只能從第一步重來，代表流程還沒有真正模組化，也還沒有形成穩定的任務交接鏈。

這三個問題比「Sonnet 5 要不要換」更重要。
因為模型會一直更新、價格會一直變，但工作流結構一旦建起來，才會變成你自己的長期能力。

常見問題

Claude Sonnet 5 值得用嗎？
如果你在第一階段，也就是用 AI 做單點任務，Sonnet 5 值得試。
它在 introductory 定價期間成本更低，能力也比 Sonnet 4.6 大幅提升。
但如果你在第二、三階段，更急的不是換模型，而是把驗收機制與 handoff 結構建起來。

Sonnet 5 跟 Opus 4.8 差在哪裡？
SWE-bench Verified 上，Sonnet 5 為 72.7%，仍低於 Opus 4.8 的 79.4%。
Agentic Coding 上，兩者差距約 6 個百分點。
但 Terminal-Bench 2.1 上，Sonnet 5 以 80.4% 反超 Opus 4.8 的 74.6%。
差距已經縮小，但沒有完全消失。
此外，benchmark 數字與正式環境存在約 37% 落差，不應直接把跑分當部署預測。

AI agent 怎麼開始建工作流？
從最容易驗收的環節開始。
先選一個你能手動確認輸出正確的 agent 步驟，例如資料整理、標題生成、SEO 大綱檢查或報表摘要。
等這一步穩定後，再設計交接給下一個步驟。
不要一開始就想設計整條全自動流程。

跑分測試可以信嗎？
方向性可以信，細節數字要打折。
SWE-bench 本身有有效性爭議，例如約 59.4% 最難任務在 bug 未修時仍會通過。
此外，lab 跑分與企業實際部署存在約 37% 落差。
因此，跑分可以當模型初篩，但不能取代自己的驗收指標。

真正的差距在哪裡？
真正差距不在用了哪個模型，而在有沒有做工作流程重構。
McKinsey 全球調查顯示，AI 高表現者與其他公司的差異，不是模型選擇，而是有沒有重新設計流程。
能建立驗收機制、任務交接鏈與自動修正能力的組織，才是第三階段玩家。

結論：Sonnet 5 降低入場成本，但 AI agent 的勝負在工作流

Sonnet 5 的發布，確實讓 AI agent 的使用門檻降低。
它用較低價格，提供比上一代更強的任務處理能力，也在部分終端機自動化測試上超越 Opus 4.8。
對單點任務使用者來說，這是值得關注的升級。

但對想要建立 AI agent 工作流的人來說，真正問題不是「模型要不要換」，而是「流程有沒有結構」。
如果沒有驗收機制、沒有任務交接鏈、沒有自動修正能力，新模型只會讓你更快、更便宜地跑出不穩定結果。

2026 年模型能力與定價都在快速趨同。
接下來真正拉開差距的，不是誰用最新模型，而是誰能把 AI agent 變成可驗收、可交接、可修正的生產系統。
便宜讓你進場，迭代能力才讓你留下來。

【延伸閱讀】

vibe coding 有什麼問題？AI 寫程式前必懂的三道防線

vibe coding 讓 AI 寫程式更快，但也可能帶來技術債、驗證成本與維護風險。本文幫助團隊判斷哪些場景適合用 AI 寫程式，哪些必須人工驗收。

ChatGPT 費用怎麼算？免費、Plus、Pro 差異

ChatGPT 費用要分清楚 Free、Go、Plus、Pro、Business 與 API。本文用官方來源整理 ChatGPT 價格、適合誰、訂閱前注意事項，並提醒台灣實際價格需以官方結帳頁為準。

Agentic AI 是什麼？代理式 AI 應用與差異

Agentic AI 是強調自主規劃、工具使用、行動與回饋修正的代理式 AI 系統。本文用新手能懂的方式比較 Agentic AI、生成式 AI、AI Agent 與 AI 自動化，整理適合場景、限…