Danny 2026-07-02

AI Agent 三階段框架：80% 人已用 AI 委派工作，真正差距在哪裡？

文章摘要

OpenAI Codex 80.6% 委派任務數據切入，89% 試驗未落地、僅 23% 規模化數據，AI Agent 使用三階段，判斷工具化、流程化或自動優化

如果你最近看到「80% 的人已經在用 AI 委派工作」這種標題，第一反應是焦慮，我懂那種感覺。
我看完 OpenAI 最新的 Codex 研究報告時，第一個念頭也是：「那我現在到底算哪種人？」
但這篇不是要製造焦慮，而是把這份報告的真正意義拆開，幫你用一個簡單框架判斷：你現在的 AI Agent 使用，停在工具化、流程化，還是已經進入真正的自動優化階段。

80% 數字說了什麼？

AI Agent，也就是可以自己執行任務的 AI 助理，在過去幾個月討論快速升溫。
主要導火線之一，是 OpenAI 在 2026 年 6 月底發布的一份 Codex 研究報告。
Codex 是 OpenAI 的程式碼 AI 工具，主要用來協助開發者寫程式、跑任務與處理技術工作流。

這份報告最受關注的數字是：在 OpenAI 自家平台的抽樣個人用戶中，截至 2026 年 5 月，80.6% 曾至少發出一次估計超過 30 分鐘人類工時的任務請求。
換句話說，他們不只是請 AI 改一段文字，而是把「原本需要半小時以上才能完成的工作」委派給 AI 去跑。

這個數字值得重視，但也要讀清楚前提。
資料來源是 OpenAI 自家平台、自報的用戶行為，用戶群偏向科技早期採用者，不能直接代表所有產業的一般工作者。
這不是否定數字，而是提醒我們：OpenAI 的 80.6% 說明 AI 工作委派正在快速普及，但不等於所有企業都已經真正完成 AI 工作自動化。

AI Agent 使用可以分成哪三個階段？

要理解 OpenAI Codex 報告的意義，可以用三階段框架來看。

第一階段：工具化
用 AI 完成單點任務，例如寫文案、查資料、翻譯、改稿、整理表格。
這個階段的特徵是：每次都要你手動觸發，AI 只做你明確要求的事。

第二階段：生產系統化
把多個 AI 步驟串成工作流程，形成半自動生產線。
這個階段的特徵是：你設計一條流程，AI 接力跑完，你只在關鍵節點確認。

第三階段：自動優化與高速迭代
AI 能記住上次結果，根據回饋自動修正，讓第十版比第一版更好。
這個階段的特徵是：你定義目標和驗收標準，系統自己持續改進。

OpenAI 的 80.6% 數字，真正說明的是：大多數早期採用者已經跨過第一階段。
也就是說，會用 AI 當工具，正在變成基本能力，不再是明顯優勢。
真正拉開差距的，是第二階段到第三階段之間的鴻溝。

多數人目前卡在第二階段的初期。
他們開始嘗試用 AI 串流程，但還沒有建立穩定的生產系統，更沒有建立第三階段所需要的迭代能力，例如驗收機制、回饋迴路、記憶上次結果並推出更好版本。

OpenAI Codex 數據可信嗎？

讀任何廠商發布的數據，都要先看清楚來源結構。
這份 Codex 報告的數據來自 OpenAI 自家平台，論文作者群中多人隸屬 OpenAI，而 OpenAI 本身也會從 Codex 訂閱與 AI Agent 應用成長中受益。
因此，OpenAI 當然有動機強調 agentic AI 正在快速爆發。

這不代表數據是假的。
學術論文形式仍帶來一定程度的方法論約束。
但讀的時候要帶著一個框架：這像是「賣刀的人說刀好用」，重點不是全盤否定，而是要看他展示了什麼、沒展示什麼。

OpenAI 展示的是：用戶正在委派工作、使用量正在成長。
但它沒有完整展示的是：任務失敗率、任務完成品質、成本是否合理，以及一般企業是否真的能穩定落地。

把 OpenAI 數據與獨立機構數字放在一起，圖像會更完整：

來源	數字	意義
OpenAI	80.6% 用戶曾委派超過 30 分鐘任務	早期採用者的使用行為正在改變
Gartner	89% 的 AI Agent 試驗案進不了正式環境	多數試驗無法真正落地
McKinsey	僅 23% 的組織在規模化運行 agentic AI	大多數企業仍在實驗階段
Goldman Sachs	整體經濟層面尚未看到 AI 生產力顯著關聯	工具採用不等於系統性生產力提升

這些數字並不互相矛盾。
它們描述的是同一個現象的兩面：需求側正在爆發，大家想用、正在用；但供給側仍存在落地鴻溝，真正穩定運行的 AI 生產系統仍是少數。

tokens 成長 56 倍，為什麼不等於成果成長 56 倍？

OpenAI 報告中還有一個很容易被誤讀的數字：OpenAI 內部研究部門的 AI 輸出量，也就是 tokens，在 2026 年 6 月比 2025 年 11 月高出 56 倍。
tokens 是 AI 處理文字的最小計算單位，輸出量變大，代表 AI 被使用得更多、產生更多內容。

但問題在於：tokens 衡量的是輸出量，不是工作品質，也不是業務成果。
獨立 AI 技術社群 Latent Space 也指出，tokens 成長不能直接等同於生產力成長。
AI 產生更多內容，不代表內容更準確、更有價值，也不代表組織流程真的變得更有效率。

Goldman Sachs 的研究提供了另一個重要參照。
在特定任務上，AI 的確能幫助員工節省時間、提升完成率。
但在整體經濟層面，目前仍找不到 AI 採用與生產力之間的顯著關聯。
甚至有研究指出，多數企業還沒有真正完成 AI 採用。

這個落差揭示了第二階段到第三階段最核心的問題：tokens 輸出成長 56 倍，不等於生產系統也成長 56 倍。
提交更多任務，不等於建立了能持續優化的 AI 工作系統。

進入第三階段，需要哪些能力？

真正的第三階段，不是單純換一個更強的 AI 模型，而是建立四種能力。

第一，目標定義能力。
你能不能清楚說出「什麼叫做做對了」？
AI 現在仍需要人來定義正確目標。
如果目標模糊，AI 跑得再快，也只是朝錯誤方向高速前進。

第二，驗收機制設計。
有了目標之後，你有沒有設計出「怎麼評估結果好不好」的機制？
這不是 AI 的工作，而是人的工作。
沒有驗收標準，AI 產出的內容再多，也很難形成穩定成果。

第三，領域知識整合。
高風險場景，例如法律、財務、客戶關係、品牌聲譽，仍然需要人工守門。
不是 AI 不夠強，而是這些場景的錯誤成本太高，人的判斷仍是必要閘道。

第四，迭代速度。
當你具備目標、驗收與領域知識後，競爭優勢會轉移到迭代頻率。
誰能更快測試下一個版本、從結果回饋中更快學習，誰就能在第三階段勝出。

好消息是，這道門檻正在快速降低。
2026 年底到 2027 年間，幫助非技術人員建立 AI 生產系統 的工具會大量出現。
但這也代表，現在開始進入第三階段的人，窗口時間不會太長。

三階段框架要怎麼實測？

我自己用這個三階段框架評估 AI 工作流程時，最常卡住的是：我以為自己在第二階段，但其實只是第一階段的多次重複。
具體來說，如果你每天都在問 AI 寫稿、改稿、查資料，但每次都是獨立指令、沒有承接上次結果，這其實仍是第一階段的高頻使用，不是第二階段的系統化。

真正進入第二階段的標誌是：你有一條流程，AI 的輸出會直接進入下一個步驟，不需要你每次重新開始。
例如，AI 先整理資料，再產出大綱，再生成文章，再依照品牌語氣修稿，再輸出社群貼文。
如果每一步都有固定輸入、固定輸出與檢查點，這才開始接近生產系統化。

從第二階段跳到第三階段，最有效的問題是：
這條流程如果跑了十次，第十次的結果能不能系統性地比第一次好？

如果答案是「不一定，看 AI 當天狀態」，代表你還沒有建立驗收機制，第三階段還很遠。
如果你能說：「因為我有這個檢查點、這個評分標準、上次結果會帶進下次」，那就代表你正在往第三階段前進。

這個框架本身不是技術工具，而是一個思維工具。
它幫你把「我有沒有在用 AI」這件事，轉成「我用到哪個階段，下一步該補什麼能力」。

帶走的判斷原則

AI 使用的真正分水嶺，不是「有沒有在用工具」，而是「你的 AI 流程有沒有驗收標準，以及能不能讓每一次迭代的結果比上一次更好」。
第一波紅利在第一階段，正在被快速拉平。
接下來真正的優勢，會出現在 AI 生產系統與迭代能力。

在行動之前，可以先問自己三個問題：

你目前的 AI 使用，有沒有把多個步驟串成工作流程？還是每次都是獨立單點任務？
這可以判斷你在第一階段，還是已經進入第二階段。
你的 AI 流程有沒有「驗收標準」？你能不能說清楚什麼叫做 AI 這次做對了？
這可以判斷你離第三階段還差多遠。
你的 AI 流程如果跑了十次，第十次的結果會系統性地比第一次好嗎？
這可以判斷你是否已經具備迭代能力。

常見問題

AI Agent 是什麼？
AI Agent 是能自己執行任務的 AI 助理。
它不只是回答你的問題，而是可以主動幫你完成一連串動作，例如查資料、整理內容、生成報告、送出任務等。
不過，Gartner 指出市場上存在大量「agent washing」，也就是把普通 AI 包裝成 AI Agent 行銷，因此不同產品的功能差異很大。

AI Agent 怎麼開始用？
最實用的起點不是找最強的 AI Agent，而是先找一件你每週重複做、步驟可預測的工作。
用 AI 工具把它跑一遍，記下哪個步驟最省時間、哪個步驟最容易出錯。
這是進入第二階段，也就是工作流程化的第一步。
目前 ChatGPT、Claude 等工具都有 agent 類功能可以試。

OpenAI Codex 是什麼？
Codex 是 OpenAI 的程式碼 AI 工具，可以自動寫程式、跑任務，主要面向開發者與技術型工作者。
這篇文章引用的研究報告，就是分析 Codex 用戶的使用行為。
非技術工作者目前比較少直接使用 Codex，但可以透過 ChatGPT 或其他 AI 工具接觸到類似的 agentic 功能。

AI 工作自動化怎麼開始？
建議從「流程梳理」開始，而不是從「哪個 AI 工具最強」開始。
先把你想自動化的工作拆成步驟，想清楚每一步的輸入是什麼、輸出要長什麼樣、什麼叫做做對了。
這些搞清楚之後，才有辦法讓 AI 穩定接手。
直接把模糊的工作丟給 AI，多半只能停在第一階段。

為什麼 89% 的 AI Agent 試驗案進不了正式環境？
Gartner 的分析指出，主要原因是成本失控、商業價值不明確、風險控管不足。
背後更深層的原因，是很多組織在試驗 AI Agent 時，跳過了目標定義與驗收機制設計。
試驗跑起來了，但組織沒有方法判斷它是不是真的有價值，因此很難進入正式環境。

結論：AI Agent 的重點不是委派，而是能不能持續變好

OpenAI Codex 報告中的 80.6% 數字，代表 AI 工作委派已經成為早期採用者的普遍行為。
但真正的問題不是「有多少人開始委派工作給 AI」，而是「有多少人建立了能持續變好的 AI 工作系統」。
第一階段的工具化紅利正在消失，第二階段的流程化正在普及，第三階段的自動優化才是下一波差距來源。
對個人與企業來說，接下來最重要的能力，不是追逐最新 AI 工具，而是建立目標、驗收、回饋與迭代機制。
能做到這件事的人，才是真正把 AI Agent 變成生產力的人。

【延伸閱讀】

多AI Agent架構紀律：讓多代理系統穩定的三條設計決策

我一年多自建多代理管線(AI Agent)的踩坑經驗，整理出讓 multi-agent pipeline 穩定的三條紀律：職責切分、結構化封包交接、機械驗證與語意判斷分層，什麼時候才值得上多代理架構。

Cursor AI 是什麼？AI 編輯器功能與新手入門

Cursor AI 是什麼？本文用新手能懂的方式介紹 Cursor 這個 AI coding agent / AI code editor，整理功能、適合誰、和 Copilot、Claude Cod…

AI 泡沫是什麼？估值、風險與投資判斷

AI 泡沫不是在問 AI 有沒有用，而是在問估值、資本支出與企業回報是否跑得比可驗證成果更快。本文用新手能懂的框架拆解 AI 投資泡沫、網路泡沫比較與投資人觀察指標。