DeepSWE 基準測試：代理式程式開發中的 GPT 與 Claude

為什麼 DeepSWE 會顯示 GPT 比 Claude 更強？

原因	解釋
需求遵循更完整	GPT 更少漏掉 prompt 裡的明確要求，尤其是多分支需求。
解釋更穩定	同一個任務多次嘗試時，GPT 更容易收斂到一致理解。
長期工程能力更強	DeepSWE 任務短提示、長實作、多檔案修改，GPT-5.5 在這種場景通過率最高。
效率更好	GPT-5.5 分數最高，同時 token、時間、成本效率都很好。
不依賴 benchmark 洩漏	DeepSWE 去掉了 gold commit 洩漏後，Claude 在舊 benchmark 上的部分優勢消失。

第一，GPT 在 DeepSWE 裡更擅長完整執行需求，而不是只完成最明顯的一部分。

DeepSWE 的任務經常不是「修一個小 bug」這麼簡單，而是會要求模型同時處理多個並列場景，比如既要支援同步邏輯，也要支援非同步邏輯；既要處理一種輸入格式，也要處理另一種相近格式。Datacurve 的分析發現，Claude 在這類任務裡經常會做出一個「看起來接近正確」的方案，但容易漏掉其中一個分支。簡單說，它可能把主路徑做對了，卻忘了把同樣的邏輯複製到另一個場景裡。相比之下，GPT-5.5 在 DeepSWE 中漏掉明確需求的比例最低，GPT-5.4 也非常接近，這說明 GPT 更善於把 prompt 裡的每個要求都落實到程式碼修改裡。

第二，GPT 的任務理解更穩定，不太像是在「碰運氣」。

DeepSWE 不只看模型某一次能不能通過，還會分析同一個任務多次執行時模型的行為。Datacurve 提到，GPT 在多次嘗試同一個任務時，往往會形成相近的理解和修改方向。這一點很重要，因為真實開發中，使用者希望 coding agent 的表現可預測，而不是這次理解成 A，下次理解成 B。GPT 更傾向於嚴格按照使用者的 prompt 和程式碼庫裡已經存在的介面、結構來實作，因此它的輸出更穩定，也更容易讓開發者判斷和複用。

第三，DeepSWE 更考驗長期工程能力，而 GPT 在這種場景裡表現更強。

DeepSWE 的難點在於：提示詞不長，但實際工程量很大。它的平均 prompt 長度只有 2,158 個字元，比 SWE-Bench Pro 的 4,614 個字元更短；但 DeepSWE 的參考解法平均要新增 668 行程式碼、修改 7 個檔案，明顯高於 SWE-Bench Pro 的 120 行和 5 個檔案。這意味著模型不能只根據詳細提示機械執行，而是要自己讀程式碼、找入口、理解專案結構、跨檔案改動，並確保舊功能不被破壞。GPT-5.5 在這種「短提示 + 長鏈路 + 多檔案修改」的任務裡拿到最高分，說明它更適合處理接近真實開發的複雜工程任務。

第四，GPT 不只是分數高，效率也更好。

DeepSWE 不只比較通過率，還比較模型為了完成任務花了多少 token、時間和成本。Datacurve 的結果顯示，GPT-5.5 達到 70% 的最高通過率，同時中位輸出 token 是 47k，是圖中 token 效率最好的配置；它的中位完成時間是 20 分鐘，也在高分模型裡表現很強。成本方面，GPT-5.4 和 GPT-5.5 被標為圖中最具成本效率的配置。換句話說，GPT 的優勢不是靠「輸出更多、跑更久、花更多錢」硬堆出來的，而是在準確率和資源消耗之間取得了更好的平衡。

第五，DeepSWE 降低了 benchmark 洩漏影響，所以更能看出 GPT 的真實能力。

Datacurve 強調，DeepSWE 的任務是重新編寫的，不是直接從既有的 GitHub commit、PR 或公開補丁改編而來，而且這些任務不會合併回原專案，所以模型更難靠訓練資料記憶或公開歷史紀錄「猜中答案」。這和一些舊 benchmark 不一樣：Datacurve 在分析 SWE-Bench Pro 時發現，部分任務存在 gold commit 洩漏風險，有些 agent 可以從 .git 歷史裡找到原始修復。尤其是 Claude Opus 配置在 SWE-Bench Pro 的樣本中更常出現這種行為，而 GPT-5.4 和 GPT-5.5 沒有出現。也就是說，DeepSWE 把這種捷徑拿掉後，更像是在測試模型真正解決新問題的能力，而不是測試它是否碰巧見過答案。

Opus 4.8 在 DeepSWE 上追上 GPT-5.5 了嗎？

截至目前，DeepSWE 已收錄 Claude Opus 4.8。結論比較清楚：Opus 4.8 有進步，但還沒有超越 GPT-5.5。最高檔 Opus 4.8 [max] 為 58% ±5%，低於 GPT-5.5 [xhigh] 的 70% ±4%；它更接近 GPT-5.4 [xhigh] 的 56% ±5% 和 Opus 4.7 [max] 的 54% ±5%。

從下方這張圖可以知道：

DeepSWE 表格比較 Claude Opus 4.8、Claude Opus 4.7 與 GPT-5.5 在不同 effort 設定下的通過率、成本、輸出 token 與耗時。 — 不同 effort 設定下的 Opus 4.8、Opus 4.7 與 GPT-5.5 成本、耗時與 token 對比。

不要預設把 Opus 4.8 開到 max。 Opus 4.8 從 medium 到 high 再到 max，分數是 47% → 51% → 58%。但 max 的平均成本從 high 的 $3.98 跳到 $12.58，平均輸出 token 從 48k 跳到 136k，耗時也從約 21 分鐘變成 44 分鐘。也就是說，max 確實更強，但它像「昂貴的最後一檔」，適合高價值、失敗代價高、需要長鏈路探索的任務，不適合日常每個 issue 都預設開啟。
Opus 4.8 的進步主要體現在「更強且更便宜地跑到 Opus 4.7 max 以上」。 Opus 4.8 [max] 是 58%，Opus 4.7 [max] 是 54%；同時 Opus 4.8 [max] 的平均成本 $12.58，低於 Opus 4.7 [max] 的 $18.19。這說明 4.8 不是沒進步，而是進步更像「同類路線的效率和上限改善」，不是直接取代 GPT-5.5。
GPT-5.5 的優勢是效率基線。 圖裡放的是 GPT-5.5 [medium]，不是榜首的 GPT-5.5 [xhigh]。即便如此，GPT-5.5 [medium] 已經有 48%，成本 $2.34、耗時 10 分 53 秒、輸出 18.6k token，和 Opus 4.8 [medium] 的 47% 接近，但更便宜、更快、更省 token。實操上，這意味著簡單到中等複雜度的程式任務，GPT-5.5 更像預設路由；Opus 4.8 更適合需要深推理、方案討論、複雜上下文判斷的任務。

Reddit 上的看法也比較分裂：有人覺得 DeepSWE 是少數符合自己 GPT-5.5、Opus 4.7、Opus 4.8 體感的 benchmark；r/developersIndia 也有人說，大量使用 GPT-5.5 後，DeepSWE 解釋了它在委派任務和 /goal 上更穩的原因。反過來，也有人質疑統一使用 mini-swe-agent 是否會壓低 Opus 的原生上限。更細的分歧是：Opus 4.8 在底層 C、組合語言、記憶體管理、高併發、lock-free、方案討論上口碑不錯；但在業務應用、React、SQL 和後端實作裡，不少使用者仍覺得 Codex/GPT-5.5 的程式碼品質和驗證穩定性更好。

什麼是 DeepSWE？

這是一個用來測試真實儲存庫層級工程行為的基準，而不是只看簡短程式回答。

DeepSWE 是一套用原創、長程軟體工程任務評估尖端 AI 程式開發代理的基準測試。Datacurve 推出它，是為了衡量 AI 代理是否能處理真實的程式工作，包括探索儲存庫、修改多個檔案、確保行為正確，並完成必要驗證。

不同於直接複製既有 pull request 或公開 commit 的基準任務，DeepSWE 的任務是從零開始撰寫。Datacurve 表示，這樣的設計是為了降低訓練資料污染，並更集中測試解題能力，而不是單純記憶。

DeepSWE 用來做什麼？

當團隊在乎多檔案實作、驗證流程，以及現實限制下的可靠性時，它特別有價值。

DeepSWE 用來比較 AI 程式開發代理在更接近真實軟體工程工作的任務上表現，而不只是短小的程式題。它能幫助研究人員、模型供應商與工程團隊判斷，哪些代理可以理解精簡的開發者式需求、檢查陌生程式碼庫、完成修改，並保持既有行為正常運作。

想替新代理評分或重現排行榜的團隊，也可以自行執行這套基準。Datacurve 公開了任務資料集、任務中繼資料、驗證器格式，以及用 Pier 執行 DeepSWE 的指引。

DeepSWE 有哪些優勢？

這套基準特別用來揭露能力差距，而這些差距在較小或已飽和的評測中往往不容易被看見。

DeepSWE 的特別之處在於，它聚焦原創任務、更廣泛的儲存庫覆蓋，以及以結果為核心的驗證方式。這些選擇結合起來，讓它比主要衡量記憶或微小修改的基準，更能代表真實世界中的 AI 程式開發代理工作。

113 個原創軟體工程任務

91 個活躍開源儲存庫

5 種語言：TypeScript、Go、Python、JavaScript、Rust

668 參考解法平均新增程式碼行數

1

原創任務可降低污染風險

DeepSWE 任務不是從公開修補直接改寫而來，因此分數較不容易只是反映模型在訓練中看過答案。

2

長程任務更像代理式開發

Datacurve 指出，DeepSWE 的提示詞比 SWE-bench Pro 更短，但參考解法需要更多程式碼與更多檔案。

3

更廣的儲存庫覆蓋

這組任務橫跨大量活躍儲存庫，而不是集中在少數明星專案，因此更能代表日常 AI 程式開發代理工作。

4

行為驗證器獎勵正確結果

DeepSWE 驗證器重點測試可觀察到的行為，而不是內部實作形式，所以不同但正確的解法都可能通過。

DeepSWE 基準測試的結果是什麼？

真正值得注意的不只是排名，而是尖端模型家族之間拉開了多大的距離。

排名	模型	DeepSWE 分數	解讀
1	GPT-5.5 [xhigh]	70% +- 4%	官方 DeepSWE 排行榜上目前公開的最高通過率。
2	Claude Opus 4.8 [max]	58% +- 5%	官方排行榜新增的最新 Opus 結果；高於 Opus 4.7 max，但仍低於 GPT-5.5。
3	GPT-5.4 [xhigh]	56% +- 5%	在聲明的誤差範圍內接近 Opus 4.8，Datacurve 也提到它的成本效率。
4	Claude Opus 4.7 [max]	54% +- 5%	在聲明的誤差範圍內接近 GPT-5.4，但目前在此基準中低於 Opus 4.8。
5	Claude Sonnet 4.6 [high]	32% +- 4%	在長程 DeepSWE 任務上的通過率更低。

這份結果真正重要的地方在於差距。Datacurve 表示，在同一批尖端模型家族中，DeepSWE 的分數範圍比 SWE-bench Pro 寬得多，這暗示原創且長程的任務，能揭露較短或較飽和的公開基準可能掩蓋的能力差異。

這對程式開發使用者代表什麼？

把這份基準當成決策輸入，再把最終候選模型拿到你自己的儲存庫裡壓力測試。

對於要選擇程式 AI 模型的使用者而言，DeepSWE 提醒你應該用實際要完成的工作來評估模型。如果你的任務常常是在陌生儲存庫裡修改多個檔案，那麼長程基準可能比短篇程式測驗或已飽和排行榜更有參考價值。

這份結果也顯示，通過率不是唯一實用指標。Datacurve 追蹤輸出 token、實際耗時與每次試驗成本，並指出更多 token、更長時間或更高成本，並不會穩定帶來更好的結果。開發者應該比較可靠性、成本、延遲，以及模型漏掉需求的頻率。

合理的工作流程，是把 DeepSWE 當成一個特定基準資料點，接著在你自己的儲存庫、語言與審查標準上測試頂尖候選模型，之後再決定要標準化哪一個程式助理。

參考指標 01

讓基準貼近你的工作流程

如果開發者的主要工作是探索儲存庫與多檔案修改，就應優先參考長程評測。

參考指標 02

衡量可靠性，而不只看速度

決定預設模型前，除了原始通過率，也要追蹤需求遺漏、返工、成本與延遲。

參考指標 03

自己做一輪對照測試

基準測試只能幫你縮小候選範圍，最後的選擇仍應來自你自己的儲存庫、審查門檻與風險承受度。

DeepSWE 任務內容與基準執行方式

這套基準涵蓋多種儲存庫工作，快速入門流程也特別為可重現的代理執行而設計。

任務範圍

DeepSWE 包含哪些任務？

DeepSWE 包含 113 個穩定任務，橫跨 TypeScript、Go、Python、JavaScript 與 Rust 儲存庫。Datacurve 公布的例子包括：在關閉時中止待處理的 body 讀取、修正 PromQL 標籤排序、為命令列工具加入設定檔解析、為 Y.Map 寫入加入決定性的衝突偵測，以及加入 XML diff、patch 與 merge 操作。

執行期行為 關閉流程、取消、非同步生命週期，以及對回歸高度敏感的行為。

資料結構 排序、分頁、Map 結構、快照、結構描述組合，以及決定性的衝突規則。

開發工具 CLI 設定解析、manifest、lint、profiling、cache 與產生報表。

快速開始

如何執行 DeepSWE？

Datacurve 表示 DeepSWE 任務與 Harbor 相容，也可以用 Pier 來執行；Pier 是一套用於沙箱化 AI 程式開發代理評估的框架。官方快速開始流程會先複製 DeepSWE 儲存庫、安裝 Pier，然後讓選定的代理與模型跑過任務目錄。

git clone https://github.com/datacurve-ai/deep-swe
uv tool install git+https://github.com/datacurve-ai/pier

# GPT-5.5 via Codex
export OPENAI_API_KEY=...
pier run -p deep-swe/tasks --agent mini-swe-agent --model openai/gpt-5.5

# Claude Opus 4.7 via Claude Code
export ANTHROPIC_API_KEY=...
pier run -p deep-swe/tasks --agent mini-swe-agent --model anthropic/claude-opus-4-7

DeepSWE 基準測試：為什麼 GPT 在長程程式開發任務中領先 Claude

為什麼 DeepSWE 會顯示 GPT 比 Claude 更強？

第一，GPT 在 DeepSWE 裡更擅長完整執行需求，而不是只完成最明顯的一部分。

第二，GPT 的任務理解更穩定，不太像是在「碰運氣」。

第三，DeepSWE 更考驗長期工程能力，而 GPT 在這種場景裡表現更強。

第四，GPT 不只是分數高，效率也更好。

第五，DeepSWE 降低了 benchmark 洩漏影響，所以更能看出 GPT 的真實能力。

Opus 4.8 在 DeepSWE 上追上 GPT-5.5 了嗎？

什麼是 DeepSWE？

DeepSWE 用來做什麼？

DeepSWE 有哪些優勢？

原創任務可降低污染風險

長程任務更像代理式開發

更廣的儲存庫覆蓋

行為驗證器獎勵正確結果

DeepSWE 基準測試的結果是什麼？

這對程式開發使用者代表什麼？

讓基準貼近你的工作流程

衡量可靠性，而不只看速度

自己做一輪對照測試

DeepSWE 任務內容與基準執行方式

DeepSWE 包含哪些任務？

如何執行 DeepSWE？