Anthropic 分析約 40 萬場 Claude Code 互動 session、約 23.5 萬名用戶後 […] 〈Anthropic 研究:領域專業比寫程式能力,更能決定 Claude Code 生成效果〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。Anthropic 分析約 40 萬場 Claude Code 互動 session、約 23.5 萬名用戶後 […] 〈Anthropic 研究:領域專業比寫程式能力,更能決定 Claude Code 生成效果〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

Anthropic 研究:領域專業比寫程式能力,更能決定 Claude Code 生成效果

2026/06/17 14:55
閱讀時長 9 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。

Anthropic 分析約 40 萬場 Claude Code 互動 session、約 23.5 萬名用戶後發現:決定 AI coding 成敗的關鍵,不是會不會寫程式,而是對所解決問題的領域理解深度。
(前情提要:Anthropic 發布 Claude Code 經濟研究!AI 代理省錢潛力達 40 億
(背景補充:Anthropic 上線 AI 衝擊儀錶板:輸入職業,秒查你的工作被 AI 吃掉多少?

本文目錄

Toggle
  • 一個會計師,如何成為 Claude 眼中的「專家」
  • 出錯後,誰能把 agent 拉回正軌
  • 管理職贏過軟體工程師,職業差異幾乎消失

Anthropic 在最新研究報告中,分析了約 23.5 萬名用戶的樣本後發現,真正決定 AI 效果成敗的,是那個「下指令的人」有多懂自己在解決什麼問題。

一個會計師,如何成為 Claude 眼中的「專家」

Anthropic 這份研究的樣本涵蓋 2025 年 10 月到 2026 年 4 月,共約 40 萬筆 Claude Code session。

報告建立了一套「任務專屬五級專業度量表」,從新手到專家。關鍵在於這個「專業度」的定義和你想的不一樣。簡單來說就是:你有多懂你要解的那個問題,而不是你有多會寫程式。

報告舉的例子很直白:一個資深工程師第一次寫 Rust,在那個任務上就算新手;反過來,一個從沒用過 Python 的會計師,只要能精確告訴 Claude 對帳規則必須滿足哪些條件、並在月結邊界抓出邏輯錯誤,在那個任務上就是專家。

數字差距直接說明了問題的嚴重程度。新手 session 每個 prompt 平均觸發約 5 個 Claude 動作、約 600 字產出;專家 session 觸發約 12 個動作、約 3,200 字產出,後者是前者動作的 2 倍多、輸出的 5 倍。

Anthropic 的回歸分析顯示,每提升一個專業等級,Claude 的動作量增加約 9%,輸出增加約 13%,控制工作型別、任務價值、月份、職業與模型版本後這個關係依然成立。

出錯後,誰能把 agent 拉回正軌

成功率的數字更能說明問題。Anthropic 定義了兩層成功標準:「判定成功」(分類器讀完對話後判斷是否達標)與「驗證成功」(需要有可查核的硬性證據,例如透過測試、git commit、用戶明確確認)。

整體而言,用戶展現的專業度越高,session 成功的機率就越高,而且大部分增幅集中在量表低端,從新手到中階的落差,比中階再爬到專家的落差更大。Anthropic 發現,專家等級 session 的驗證成功率,是新手的兩倍以上。

更有意思的是「出錯後的修復率」。Anthropic 追蹤了那些遭遇麻煩的 session,也就是出現失敗訊號的對話。在這批 session 中,驗證成功率從新手的 4% 升到專家的 15%;至少部分成功的比例,新手為 60%,中階到專家為 80-81%。

放棄率的差距也很明顯。當 session 遭遇困境時,新手有 19% 的機率直接放棄(判定失敗且零行程式碼),而其他等級僅有 5-7%。Anthropic 的解讀是:領域專業的價值之一,在於當 agent 走偏時有能力把它導回正確方向。

這個發現指向一個反直覺的結論:「懂問題」比「懂工具」更重要。因為懂問題,才能在 Claude 給出錯誤答案時知道哪裡錯了;才能精確說明邊界條件;才能在 agent 做出奇怪決策時立刻出聲糾正。

管理職贏過軟體工程師,職業差異幾乎消失

Anthropic 的資料打破了另一個預期:職業背景並不像想像中重要。

軟體相關職業整體驗證成功率約 30%,其他職業約 26%。只看「有實際產出程式碼」的 session,差距拉開到 34% vs 29%,但如果放寬到「至少部分成功」,兩組幾乎並列:89% vs 88%。

更值得注意的是,前十大職業中,每一個都落在軟體工程師驗證成功率的 7 個百分點以內。管理職的驗證成功率甚至略高於軟體工程師,Anthropic 的推測是:管理職擅長指派任務和設定規格的習慣,恰好遷移到了指揮 agent 上。

工作型態本身也在七個月內快速演變。修 Bug 的 session 佔比從 33% 降到 19%,幾乎砍半;操作軟體(部署、設定、執行 pipeline)從 14% 升到 21%;寫作與資料分析約從 10% 翻倍到 20%。

換句話說,用戶在把 Claude Code 用於越來越多「程式周邊的工作」,而不只是寫程式本身。

任務的經濟價值也同步上升。Anthropic 以 freelance 接案行情估算每場 session 的市場價值,七個月內平均上升約 27%;建構型任務上升約 43%,操作型約 34%,修復型約 32%。

對一個領域有基本到中等的理解,就能拿到大部分的好處;從中階再往專家爬,成功率的斜率明顯變平。

隨著 AI 工具的持續擴張,它放大的不是程式技能,而是你對問題的理解深度。不懂自己要解什麼問題的人,用更強的模型也只是在更快速地迷路。

📍相關報導📍

OpenRouter 分析 100 兆 Token 研報:人類到底用 AI 做什麼、中國模型崛起與用戶留存秘密

Anthropic 臨時喊卡 Agent SDK 計費新制,訂閱補貼上看 30 倍

Google「Gemini 2.0」來了!推出三種AI代理:複雜任務、遊戲、程式設計

世界盃預測,一單串多場,搏200倍收益!

世界盃預測,一單串多場,搏200倍收益!世界盃預測,一單串多場,搏200倍收益!

MEXC App 6.60.0 全新升級,巴西/法國/阿根廷等最多20場組合,一鍵輕鬆下注!

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

一腳點球,直通 50,000 USDT!

一腳點球,直通 50,000 USDT!一腳點球,直通 50,000 USDT!

百倍收益圍獵第4期 · 世界盃專場,完成 DEX+ 任務解鎖冠軍轉盤!