DeepSWE 基準測試:為什麼 GPT 在長程程式開發任務中領先 Claude
DeepSWE 是 Datacurve 推出的全新長程軟體工程基準測試。公開結果顯示,GPT-5.5 在原創、 多檔案的程式任務上領先 Claude Opus 4.7,對正在挑選 AI 程式模型的開發者來說,這是一個 有用但仍限於特定基準情境的指標。
- DeepSWE 衡量什麼,以及它為何比短篇程式題更貼近真實情境。
- 目前公開排行榜如何比較 GPT 與 Claude 在長程任務上的表現。
- 開發者在選擇程式模型前,應該從這份基準讀出哪些實務參考指標。
01 / 定義
什麼是 DeepSWE?
這是一個用來測試真實儲存庫層級工程行為的基準,而不是只看簡短程式回答。
DeepSWE 是一套用原創、長程軟體工程任務評估尖端 AI 程式開發代理的基準測試。Datacurve 推出它, 是為了衡量 AI 代理是否能處理真實的程式工作,包括探索儲存庫、修改多個檔案、確保行為正確, 並完成必要驗證。
不同於直接複製既有 pull request 或公開 commit 的基準任務,DeepSWE 的任務是從零開始撰寫。 Datacurve 表示,這樣的設計是為了降低訓練資料污染,並更集中測試解題能力,而不是單純記憶。
02 / 用途
DeepSWE 用來做什麼?
當團隊在乎多檔案實作、驗證流程,以及現實限制下的可靠性時,它特別有價值。
DeepSWE 用來比較 AI 程式開發代理在更接近真實軟體工程工作的任務上表現,而不只是短小的程式題。 它能幫助研究人員、模型供應商與工程團隊判斷,哪些代理可以理解精簡的開發者式需求、檢查陌生 程式碼庫、完成修改,並保持既有行為正常運作。
想替新代理評分或重現排行榜的團隊,也可以自行執行這套基準。Datacurve 公開了任務資料集、 任務中繼資料、驗證器格式,以及用 Pier 執行 DeepSWE 的指引。
03 / 優勢
DeepSWE 有哪些優勢?
這套基準特別用來揭露能力差距,而這些差距在較小或已飽和的評測中往往不容易被看見。
DeepSWE 的特別之處在於,它聚焦原創任務、更廣泛的儲存庫覆蓋,以及以結果為核心的驗證方式。 這些選擇結合起來,讓它比主要衡量記憶或微小修改的基準,更能代表真實世界中的 AI 程式開發代理工作。
原創任務可降低污染風險
DeepSWE 任務不是從公開修補直接改寫而來,因此分數較不容易只是反映模型在訓練中看過答案。
長程任務更像代理式開發
Datacurve 指出,DeepSWE 的提示詞比 SWE-bench Pro 更短,但參考解法需要更多程式碼與更多檔案。
更廣的儲存庫覆蓋
這組任務橫跨大量活躍儲存庫,而不是集中在少數明星專案,因此更能代表日常 AI 程式開發代理工作。
行為驗證器獎勵正確結果
DeepSWE 驗證器重點測試可觀察到的行為,而不是內部實作形式,所以不同但正確的解法都可能通過。
04 / 結果
DeepSWE 基準測試的結果是什麼?
真正值得注意的不只是排名,而是尖端模型家族之間拉開了多大的距離。
| 排名 | 模型 | DeepSWE 分數 | 解讀 |
|---|---|---|---|
| 1 | GPT-5.5 [xhigh] | 70% +- 4% | 官方 DeepSWE 排行榜上目前公開的最高通過率。 |
| 2 | GPT-5.4 [xhigh] | 56% +- 5% | 總排名第二,Datacurve 也提到它的成本效率。 |
| 3 | Claude Opus 4.7 [max] | 54% +- 5% | 在聲明的誤差範圍內接近 GPT-5.4,但在此基準中仍落後 GPT-5.5。 |
| 4 | Claude Sonnet 4.6 [high] | 32% +- 4% | 在長程 DeepSWE 任務上的通過率更低。 |
這份結果真正重要的地方在於差距。Datacurve 表示,在同一批尖端模型家族中,DeepSWE 的分數範圍 比 SWE-bench Pro 寬得多,這暗示原創且長程的任務,能揭露較短或較飽和的公開基準可能掩蓋的能力差異。
05 / GPT vs Claude
為什麼 DeepSWE 會顯示 GPT 比 Claude 更強?
這個證據是真實的,但它依然只是在單一基準設計與單一評分方式下成立的證據。
DeepSWE 顯示 GPT 比 Claude 更強,僅限於這套基準實際衡量的情境:在標準化執行框架下完成原創、 長程的軟體工程任務。最清楚的證據就是排行榜:GPT-5.5 達到 70%,Claude Opus 4.7 為 54%。 GPT-5.4 以 56% 排在 Claude Opus 4.7 之前,但兩者的誤差區間仍有重疊。
Datacurve 的質性分析提供了一種可能解釋。它指出,在被檢視的 DeepSWE 執行軌跡中,GPT-5.5 漏掉明確要求行為的比例最低,GPT-5.4 也緊隨其後。同一份分析也提到,Claude 設定更常漏掉多段式 要求中的某一支,例如完成同步路徑,卻沒有補上對應的非同步路徑。
這並不代表 Claude 在所有程式任務上都弱。它代表的是,在 DeepSWE 的任務設計與評分方法下,GPT 模型在完成完整明示行為方面更可靠。對使用者來說,較審慎的結論是:DeepSWE 提供了 GPT 目前在這一類 長程 AI 程式開發代理評測中領先 Claude 的證據。
確實存在基準上的領先
目前公開排行榜把 GPT-5.5 放在第一名,對 Claude Sonnet 4.6 的差距較大,對 Claude Opus 4.7 的差距較小,但仍有意義。
不要過度泛化這個結果
DeepSWE 對長程 AI 程式開發代理是重要參考指標,但它不是適用於每個程式碼庫、語言組合與產品流程的通用排名。
06 / 模型選擇
這對程式開發使用者代表什麼?
把這份基準當成決策輸入,再把最終候選模型拿到你自己的儲存庫裡壓力測試。
對於要選擇程式 AI 模型的使用者而言,DeepSWE 提醒你應該用實際要完成的工作來評估模型。如果你的 任務常常是在陌生儲存庫裡修改多個檔案,那麼長程基準可能比短篇程式測驗或已飽和排行榜更有參考價值。
這份結果也顯示,通過率不是唯一實用指標。Datacurve 追蹤輸出 token、實際耗時與每次試驗成本,並指出 更多 token、更長時間或更高成本,並不會穩定帶來更好的結果。開發者應該比較可靠性、成本、延遲,以及 模型漏掉需求的頻率。
合理的工作流程,是把 DeepSWE 當成一個特定基準資料點,接著在你自己的儲存庫、語言與審查標準上測試 頂尖候選模型,之後再決定要標準化哪一個程式助理。
讓基準貼近你的工作流程
如果開發者的主要工作是探索儲存庫與多檔案修改,就應優先參考長程評測。
衡量可靠性,而不只看速度
決定預設模型前,除了原始通過率,也要追蹤需求遺漏、返工、成本與延遲。
自己做一輪對照測試
基準測試只能幫你縮小候選範圍,最後的選擇仍應來自你自己的儲存庫、審查門檻與風險承受度。
07 / 進一步了解
DeepSWE 任務內容與基準執行方式
這套基準涵蓋多種儲存庫工作,快速入門流程也特別為可重現的代理執行而設計。
DeepSWE 包含哪些任務?
DeepSWE 包含 113 個穩定任務,橫跨 TypeScript、Go、Python、JavaScript 與 Rust 儲存庫。 Datacurve 公布的例子包括:在關閉時中止待處理的 body 讀取、修正 PromQL 標籤排序、為命令列工具 加入設定檔解析、為 Y.Map 寫入加入決定性的衝突偵測,以及加入 XML diff、patch 與 merge 操作。
如何執行 DeepSWE?
Datacurve 表示 DeepSWE 任務與 Harbor 相容,也可以用 Pier 來執行;Pier 是一套用於沙箱化 AI 程式開發代理評估的框架。 官方快速開始流程會先複製 DeepSWE 儲存庫、安裝 Pier,然後讓選定的代理與模型跑過任務目錄。
git clone https://github.com/datacurve-ai/deep-swe
uv tool install git+https://github.com/datacurve-ai/pier
# 透過 Codex 執行 GPT-5.5
export OPENAI_API_KEY=...
pier run -p deep-swe/tasks --agent mini-swe-agent --model openai/gpt-5.5
# 透過 Claude Code 執行 Claude Opus 4.7
export ANTHROPIC_API_KEY=...
pier run -p deep-swe/tasks --agent mini-swe-agent --model anthropic/claude-opus-4-7