DS deepswe.net
語言版本
DeepSWE 資訊中心

DeepSWE 基準測試:為什麼 GPT 在長程程式開發任務中領先 Claude

DeepSWE 是 Datacurve 推出的全新長程軟體工程基準測試。公開結果顯示,GPT-5.5 在原創、 多檔案的程式任務上領先 Claude Opus 4.7,對正在挑選 AI 程式模型的開發者來說,這是一個 有用但仍限於特定基準情境的指標。

任務資料集 113 個原創工程任務
涵蓋儲存庫 91 個活躍開源儲存庫
公開排行榜第一名 GPT-5.5,通過率 70%
本頁重點 總覽
  • DeepSWE 衡量什麼,以及它為何比短篇程式題更貼近真實情境。
  • 目前公開排行榜如何比較 GPT 與 Claude 在長程任務上的表現。
  • 開發者在選擇程式模型前,應該從這份基準讀出哪些實務參考指標。

什麼是 DeepSWE?

這是一個用來測試真實儲存庫層級工程行為的基準,而不是只看簡短程式回答。

DeepSWE 是一套用原創、長程軟體工程任務評估尖端 AI 程式開發代理的基準測試。Datacurve 推出它, 是為了衡量 AI 代理是否能處理真實的程式工作,包括探索儲存庫、修改多個檔案、確保行為正確, 並完成必要驗證。

不同於直接複製既有 pull request 或公開 commit 的基準任務,DeepSWE 的任務是從零開始撰寫。 Datacurve 表示,這樣的設計是為了降低訓練資料污染,並更集中測試解題能力,而不是單純記憶。

DeepSWE 用來做什麼?

當團隊在乎多檔案實作、驗證流程,以及現實限制下的可靠性時,它特別有價值。

DeepSWE 用來比較 AI 程式開發代理在更接近真實軟體工程工作的任務上表現,而不只是短小的程式題。 它能幫助研究人員、模型供應商與工程團隊判斷,哪些代理可以理解精簡的開發者式需求、檢查陌生 程式碼庫、完成修改,並保持既有行為正常運作。

想替新代理評分或重現排行榜的團隊,也可以自行執行這套基準。Datacurve 公開了任務資料集、 任務中繼資料、驗證器格式,以及用 Pier 執行 DeepSWE 的指引。

DeepSWE 有哪些優勢?

這套基準特別用來揭露能力差距,而這些差距在較小或已飽和的評測中往往不容易被看見。

DeepSWE 的特別之處在於,它聚焦原創任務、更廣泛的儲存庫覆蓋,以及以結果為核心的驗證方式。 這些選擇結合起來,讓它比主要衡量記憶或微小修改的基準,更能代表真實世界中的 AI 程式開發代理工作。

113 個原創軟體工程任務
91 個活躍開源儲存庫
5 種語言:TypeScript、Go、Python、JavaScript、Rust
668 參考解法平均新增程式碼行數
1

原創任務可降低污染風險

DeepSWE 任務不是從公開修補直接改寫而來,因此分數較不容易只是反映模型在訓練中看過答案。

2

長程任務更像代理式開發

Datacurve 指出,DeepSWE 的提示詞比 SWE-bench Pro 更短,但參考解法需要更多程式碼與更多檔案。

3

更廣的儲存庫覆蓋

這組任務橫跨大量活躍儲存庫,而不是集中在少數明星專案,因此更能代表日常 AI 程式開發代理工作。

4

行為驗證器獎勵正確結果

DeepSWE 驗證器重點測試可觀察到的行為,而不是內部實作形式,所以不同但正確的解法都可能通過。

DeepSWE 基準測試的結果是什麼?

真正值得注意的不只是排名,而是尖端模型家族之間拉開了多大的距離。

排名 模型 DeepSWE 分數 解讀
1 GPT-5.5 [xhigh] 70% +- 4% 官方 DeepSWE 排行榜上目前公開的最高通過率。
2 GPT-5.4 [xhigh] 56% +- 5% 總排名第二,Datacurve 也提到它的成本效率。
3 Claude Opus 4.7 [max] 54% +- 5% 在聲明的誤差範圍內接近 GPT-5.4,但在此基準中仍落後 GPT-5.5。
4 Claude Sonnet 4.6 [high] 32% +- 4% 在長程 DeepSWE 任務上的通過率更低。

這份結果真正重要的地方在於差距。Datacurve 表示,在同一批尖端模型家族中,DeepSWE 的分數範圍 比 SWE-bench Pro 寬得多,這暗示原創且長程的任務,能揭露較短或較飽和的公開基準可能掩蓋的能力差異。

為什麼 DeepSWE 會顯示 GPT 比 Claude 更強?

這個證據是真實的,但它依然只是在單一基準設計與單一評分方式下成立的證據。

DeepSWE 顯示 GPT 比 Claude 更強,僅限於這套基準實際衡量的情境:在標準化執行框架下完成原創、 長程的軟體工程任務。最清楚的證據就是排行榜:GPT-5.5 達到 70%,Claude Opus 4.7 為 54%。 GPT-5.4 以 56% 排在 Claude Opus 4.7 之前,但兩者的誤差區間仍有重疊。

Datacurve 的質性分析提供了一種可能解釋。它指出,在被檢視的 DeepSWE 執行軌跡中,GPT-5.5 漏掉明確要求行為的比例最低,GPT-5.4 也緊隨其後。同一份分析也提到,Claude 設定更常漏掉多段式 要求中的某一支,例如完成同步路徑,卻沒有補上對應的非同步路徑。

這並不代表 Claude 在所有程式任務上都弱。它代表的是,在 DeepSWE 的任務設計與評分方法下,GPT 模型在完成完整明示行為方面更可靠。對使用者來說,較審慎的結論是:DeepSWE 提供了 GPT 目前在這一類 長程 AI 程式開發代理評測中領先 Claude 的證據。

排行榜顯示什麼

確實存在基準上的領先

目前公開排行榜把 GPT-5.5 放在第一名,對 Claude Sonnet 4.6 的差距較大,對 Claude Opus 4.7 的差距較小,但仍有意義。

要避免的解讀

不要過度泛化這個結果

DeepSWE 對長程 AI 程式開發代理是重要參考指標,但它不是適用於每個程式碼庫、語言組合與產品流程的通用排名。

這對程式開發使用者代表什麼?

把這份基準當成決策輸入,再把最終候選模型拿到你自己的儲存庫裡壓力測試。

對於要選擇程式 AI 模型的使用者而言,DeepSWE 提醒你應該用實際要完成的工作來評估模型。如果你的 任務常常是在陌生儲存庫裡修改多個檔案,那麼長程基準可能比短篇程式測驗或已飽和排行榜更有參考價值。

這份結果也顯示,通過率不是唯一實用指標。Datacurve 追蹤輸出 token、實際耗時與每次試驗成本,並指出 更多 token、更長時間或更高成本,並不會穩定帶來更好的結果。開發者應該比較可靠性、成本、延遲,以及 模型漏掉需求的頻率。

合理的工作流程,是把 DeepSWE 當成一個特定基準資料點,接著在你自己的儲存庫、語言與審查標準上測試 頂尖候選模型,之後再決定要標準化哪一個程式助理。

參考指標 01

讓基準貼近你的工作流程

如果開發者的主要工作是探索儲存庫與多檔案修改,就應優先參考長程評測。

參考指標 02

衡量可靠性,而不只看速度

決定預設模型前,除了原始通過率,也要追蹤需求遺漏、返工、成本與延遲。

參考指標 03

自己做一輪對照測試

基準測試只能幫你縮小候選範圍,最後的選擇仍應來自你自己的儲存庫、審查門檻與風險承受度。

DeepSWE 任務內容與基準執行方式

這套基準涵蓋多種儲存庫工作,快速入門流程也特別為可重現的代理執行而設計。

任務範圍

DeepSWE 包含哪些任務?

DeepSWE 包含 113 個穩定任務,橫跨 TypeScript、Go、Python、JavaScript 與 Rust 儲存庫。 Datacurve 公布的例子包括:在關閉時中止待處理的 body 讀取、修正 PromQL 標籤排序、為命令列工具 加入設定檔解析、為 Y.Map 寫入加入決定性的衝突偵測,以及加入 XML diff、patch 與 merge 操作。

執行期行為 關閉流程、取消、非同步生命週期,以及對回歸高度敏感的行為。
資料結構 排序、分頁、Map 結構、快照、結構描述組合,以及決定性的衝突規則。
開發工具 CLI 設定解析、manifest、lint、profiling、cache 與產生報表。
快速開始

如何執行 DeepSWE?

Datacurve 表示 DeepSWE 任務與 Harbor 相容,也可以用 Pier 來執行;Pier 是一套用於沙箱化 AI 程式開發代理評估的框架。 官方快速開始流程會先複製 DeepSWE 儲存庫、安裝 Pier,然後讓選定的代理與模型跑過任務目錄。

git clone https://github.com/datacurve-ai/deep-swe
uv tool install git+https://github.com/datacurve-ai/pier

# 透過 Codex 執行 GPT-5.5
export OPENAI_API_KEY=...
pier run -p deep-swe/tasks --agent mini-swe-agent --model openai/gpt-5.5

# 透過 Claude Code 執行 Claude Opus 4.7
export ANTHROPIC_API_KEY=...
pier run -p deep-swe/tasks --agent mini-swe-agent --model anthropic/claude-opus-4-7