DeepSWE 벤치마크: 에이전트형 코딩에서 GPT와 Claude 비교

왜 DeepSWE에서는 GPT가 Claude보다 앞서는 것으로 보일까요?

이유	설명
요구사항을 더 빠짐없이 반영함	특히 여러 갈래 요구가 있는 작업에서 GPT는 프롬프트의 명시적 요구를 덜 놓칩니다.
해석이 더 안정적임	같은 작업을 여러 번 실행해도 GPT는 비슷한 이해에 더 자주 수렴합니다.
장기 엔지니어링 능력이 더 강함	DeepSWE는 짧은 프롬프트, 긴 구현, 다중 파일 변경을 요구하며, GPT-5.5가 이 환경에서 최고 점수를 냈습니다.
효율도 더 좋음	GPT-5.5는 점수가 가장 높으면서도 토큰, 시간, 비용 효율까지 강하게 나타납니다.
벤치마크 누수에 덜 의존함	DeepSWE가 gold commit 누수 가능성을 제거하면서, 이전 벤치마크에서 보였던 Claude의 일부 이점이 사라집니다.

첫째, DeepSWE에서 GPT는 가장 눈에 띄는 한 부분만 처리하는 것이 아니라 요구사항 전체를 끝까지 수행하는 데 더 강합니다.

DeepSWE의 작업은 단순한 작은 버그 수정으로 끝나지 않는 경우가 많습니다. 동기 경로와 비동기 경로를 모두 지원해야 하거나, 한 가지 입력 형식뿐 아니라 그와 매우 비슷한 다른 형식까지 함께 처리해야 하는 식으로 여러 병렬 시나리오를 동시에 다루라고 요구합니다. Datacurve 분석에 따르면 Claude는 이런 작업에서 겉보기에는 거의 맞아 보이는 해법을 내놓는 경우가 많지만, 그중 한 갈래를 빠뜨리기 쉽습니다. 쉽게 말해 주 경로는 올바르게 처리했지만, 다른 시나리오에 같은 로직을 복제하는 일을 놓치는 식입니다. 반면 GPT-5.5는 DeepSWE에서 명시된 요구를 빠뜨리는 비율이 가장 낮았고, GPT-5.4도 그 뒤를 아주 가깝게 따랐습니다. 이는 GPT가 프롬프트의 각 요구를 실제 코드 수정으로 더 충실하게 옮긴다는 뜻입니다.

둘째, GPT는 작업을 해석하는 방식이 더 안정적이고, 결과가 운에 덜 좌우됩니다.

DeepSWE는 모델이 한 번 통과하느냐만 보지 않습니다. 같은 작업을 여러 번 실행했을 때 어떤 식으로 행동하는지도 함께 봅니다. Datacurve에 따르면 GPT는 같은 작업을 반복 실행해도 비슷한 이해와 수정 방향으로 수렴하는 경향이 있습니다. 이 점은 실제 개발에서 특히 중요합니다. 사용자는 이번에는 A로 이해하고 다음 번에는 B로 이해하는 에이전트보다, 예측 가능한 코딩 에이전트를 원하기 때문입니다. GPT는 사용자의 프롬프트와 저장소에 이미 존재하는 인터페이스, 구조를 더 엄격하게 따르는 편이어서, 출력이 더 안정적이고 검토하거나 재사용하기도 더 쉽습니다.

셋째, DeepSWE는 장기적인 엔지니어링 역량을 더 강하게 시험하며, GPT는 이런 환경에서 더 좋은 성과를 냅니다.

DeepSWE가 어려운 이유는 프롬프트는 짧지만 실제 구현 작업은 길다는 데 있습니다. 평균 프롬프트 길이는 2,158자로 SWE-Bench Pro의 4,614자보다 짧습니다. 하지만 DeepSWE의 기준 해법은 평균 668줄의 코드를 추가하고 7개 파일을 수정하는 반면, SWE-Bench Pro는 평균 120줄과 5개 파일 수준입니다. 즉, 모델은 상세한 지시를 기계적으로 따라가기만 해서는 안 됩니다. 코드베이스를 읽고, 적절한 진입점을 찾고, 프로젝트 구조를 이해하고, 여러 파일을 넘나들며 수정하면서 기존 동작까지 지켜야 합니다. GPT-5.5가 바로 이런 짧은 프롬프트, 긴 실행 경로, 다중 파일 변경의 조합에서 최고 점수를 냈다는 것은, 실제 개발에 가까운 엔지니어링 작업에 더 잘 맞는다는 강한 신호입니다.

넷째, GPT는 점수만 높은 것이 아니라 효율도 더 좋습니다.

DeepSWE는 통과율만 비교하지 않습니다. 작업을 끝내는 데 몇 개의 토큰이 들었는지, 얼마나 시간이 걸렸는지, 비용은 얼마였는지도 함께 추적합니다. Datacurve에 따르면 GPT-5.5는 70%로 최고 통과율을 기록하면서도, 중간값 기준 출력 길이가 47k 토큰으로 그래프에서 가장 좋은 토큰 효율을 보입니다. 중간 완료 시간도 20분으로, 상위권 모델들 가운데서도 좋은 편입니다. 비용 측면에서는 GPT-5.4와 GPT-5.5가 가장 비용 효율적인 구성으로 표시됩니다. 즉, GPT의 우위는 더 많이 출력하고, 더 오래 돌리고, 더 많은 비용을 써서 억지로 만들어낸 결과가 아닙니다. 정확도와 자원 사용 사이의 균형을 더 잘 맞춘 결과입니다.

다섯째, DeepSWE는 벤치마크 누수 영향을 줄여서 GPT의 실제 역량을 더 잘 드러냅니다.

Datacurve는 DeepSWE 작업이 기존 GitHub 커밋, PR, 공개 패치를 그대로 바꿔 만든 것이 아니라 새로 다시 작성된 것이라고 강조합니다. 또한 이 작업들은 원래 프로젝트에 다시 병합되지도 않습니다. 그래서 모델이 학습 데이터의 기억이나 공개 이력을 바탕으로 정답을 짐작하기가 훨씬 더 어려워집니다. 이는 일부 오래된 벤치마크와 다릅니다. Datacurve는 SWE-Bench Pro를 분석하면서 일부 작업에 gold commit 누수 위험이 있었고, 일부 에이전트는 git 기록에서 원래 수정 내용을 찾아낼 수 있었다고 지적했습니다. 특히 SWE-Bench Pro 샘플에서는 Claude Opus 구성이 이런 행동을 더 자주 보였고, GPT-5.4와 GPT-5.5는 그렇지 않았습니다. 이런 지름길을 제거하고 나면 DeepSWE는 모델이 새로운 문제를 실제로 풀 수 있는지를 더 잘 시험하는 벤치마크에 가까워집니다.

Opus 4.8은 DeepSWE에서 GPT-5.5를 따라잡았나요?

현재 DeepSWE에는 Claude Opus 4.8 결과가 포함되어 있습니다. 결론은 비교적 분명합니다. Opus 4.8은 개선됐지만 GPT-5.5를 앞지르지는 못했습니다. 최고 설정인 Opus 4.8 [max]는 58% ±5%로 GPT-5.5 [xhigh]의 70% ±4%보다 낮고, GPT-5.4 [xhigh]의 56% ±5%와 Opus 4.7 [max]의 54% ±5%에 더 가깝습니다.

아래 차트에서 알 수 있는 점:

DeepSWE 표가 Claude Opus 4.8, Claude Opus 4.7, GPT-5.5를 effort 설정, 통과율, 비용, 출력 tokens, 시간 기준으로 비교합니다. — effort 설정별 Opus 4.8, Opus 4.7, GPT-5.5의 비용, 시간, token 비교.

Opus 4.8을 기본으로 max에 두지 마세요. Opus 4.8은 medium에서 high, max로 갈수록 점수가 47% → 51% → 58%로 올라갑니다. 하지만 max의 평균 비용은 high의 $3.98에서 $12.58로 뛰고, 평균 출력 token은 48k에서 136k로 늘며, 시간도 약 21분에서 44분으로 길어집니다. 즉 max는 확실히 더 강하지만 “비싼 마지막 단계”에 가깝습니다. 가치가 높고 실패 비용이 크며 긴 탐색이 필요한 작업에는 적합하지만, 일상적인 issue마다 기본으로 켜 둘 설정은 아닙니다.
Opus 4.8의 개선은 주로 “Opus 4.7 max보다 더 강하고 더 저렴하게 올라간다”는 데 있습니다. Opus 4.8 [max]는 58%, Opus 4.7 [max]는 54%입니다. 동시에 Opus 4.8 [max]의 평균 비용은 $12.58로 Opus 4.7 [max]의 $18.19보다 낮습니다. 이는 4.8이 개선되지 않았다는 뜻이 아닙니다. 개선이 GPT-5.5를 직접 끌어내린 것이라기보다, 같은 계열 안에서 효율과 상한이 좋아진 것에 가깝다는 뜻입니다.
GPT-5.5의 강점은 효율 기준선입니다. 차트에 들어간 것은 GPT-5.5 [medium]이지, 1위인 GPT-5.5 [xhigh]가 아닙니다. 그런데도 GPT-5.5 [medium]은 이미 48%이고, 비용은 $2.34, 시간은 10분 53초, 출력은 18.6k token입니다. Opus 4.8 [medium]의 47%와 가깝지만 더 저렴하고 빠르며 token도 적게 씁니다. 실무적으로 단순하거나 중간 복잡도의 코딩 작업은 GPT-5.5를 기본 라우트로 두는 쪽에 가깝고, Opus 4.8은 깊은 추론, 설계 논의, 복잡한 맥락 판단이 필요한 작업에 더 잘 맞습니다.

Reddit 반응도 갈립니다. 어떤 사용자는 DeepSWE가 GPT-5.5, Opus 4.7, Opus 4.8에 대한 자신의 체감과 맞는 드문 benchmark라고 말했고, r/developersIndia에서도 GPT-5.5를 많이 써 본 뒤 DeepSWE 결과가 위임 작업과 /goal에서 더 안정적으로 느껴지는 이유를 설명해 준다는 의견이 있었습니다. 반대로 mini-swe-agent를 일괄 적용하는 방식이 Opus의 원래 상한을 낮게 보이게 하는 것 아니냐는 의문도 있습니다. 더 세부적으로는 Opus 4.8이 저수준 C, 어셈블리, 메모리 관리, 고동시성, lock-free, 설계 논의에서 평이 좋지만, 업무용 앱, React, SQL, 백엔드 구현에서는 여전히 Codex/GPT-5.5의 코드 품질과 검증 안정성이 더 낫다고 보는 사용자가 많습니다.

DeepSWE란 무엇인가요?

짧은 정답형 코딩이 아니라, 실제 저장소 수준의 엔지니어링 동작을 시험하도록 설계된 벤치마크입니다.

DeepSWE는 최첨단 코딩 에이전트를 새로 작성된 긴 호흡의 소프트웨어 엔지니어링 작업으로 평가하는 벤치마크입니다. Datacurve는 저장소 탐색, 여러 파일 변경, 동작의 정확성, 검증이 필요한 현실적 코딩 업무를 AI 에이전트가 얼마나 잘 처리하는지 측정하기 위해 이를 공개했습니다.

기존 풀 리퀘스트나 공개 커밋에서 복사한 작업과 달리, DeepSWE 작업은 처음부터 새로 작성됩니다. Datacurve는 이 설계가 학습 데이터 오염을 줄이고, 단순한 회상이 아니라 문제 해결 능력을 시험하기 위한 것이라고 설명합니다.

DeepSWE는 무엇에 쓰이나요?

여러 파일에 걸친 구현, 검증, 실제 제약 하에서의 신뢰성이 중요한 팀에게 특히 유용합니다.

DeepSWE는 짧은 코딩 퍼즐보다 실제 소프트웨어 엔지니어링 업무에 더 가까운 작업으로 AI 코딩 에이전트를 비교하는 데 사용됩니다. 연구자, 모델 제공자, 엔지니어링 팀은 이를 통해 어떤 에이전트가 개발자 스타일의 간결한 요청을 따르고, 낯선 코드베이스를 살펴보고, 변경을 구현하며, 기존 동작을 유지할 수 있는지 판단할 수 있습니다.

새로운 에이전트의 점수를 내거나 공개 리더보드를 재현하고 싶은 팀도 이 벤치마크를 직접 실행할 수 있습니다. Datacurve는 작업 데이터셋, 작업 메타데이터, 검증기 형식, 그리고 Pier로 DeepSWE를 실행하는 방법을 공개합니다.

DeepSWE의 장점은 무엇인가요?

더 작거나 이미 포화된 평가에서는 잘 보이지 않는 능력 차이를 드러내도록 설계되어 있습니다.

DeepSWE는 독자적으로 작성된 작업, 더 넓은 저장소 범위, 결과 중심 검증에 초점을 맞춘다는 점에서 두드러집니다. 이런 선택 덕분에 단순 회상이나 작은 수정 위주 벤치마크보다 실제 코딩 에이전트 업무를 더 잘 대변합니다.

113 새로 작성된 소프트웨어 엔지니어링 작업

91 활발한 오픈소스 저장소

5 프로그래밍 언어: TypeScript, Go, Python, JavaScript, Rust

668 참조 해법에서 평균적으로 추가된 코드 줄 수

1

새로 작성된 작업은 오염 위험을 낮춥니다

DeepSWE 작업은 공개된 수정 사항을 변형한 것이 아닙니다. 따라서 모델이 학습 중 답을 이미 봤기 때문에 점수가 높아지는 가능성을 줄여 줍니다.

2

긴 호흡의 작업은 에이전트형 개발에 더 가깝습니다

Datacurve에 따르면 DeepSWE 프롬프트는 SWE-bench Pro보다 더 짧지만, 참조 해법에는 훨씬 더 많은 코드와 파일이 필요합니다.

3

더 넓은 저장소 커버리지

작업 세트는 소수의 대표 프로젝트에 집중하지 않고 많은 활발한 저장소를 가로지르기 때문에, 일상적인 코딩 에이전트 업무를 더 넓게 대변합니다.

4

동작 검증기는 올바른 결과를 보상합니다

DeepSWE 검증기는 내부 구현 형태보다 관찰 가능한 동작을 시험하도록 설계되어 있어, 서로 다른 정답 구현도 통과할 수 있습니다.

DeepSWE 벤치마크 결과는 무엇인가요?

핵심은 단순한 순위보다, 최첨단 모델 계열 사이의 격차가 얼마나 벌어졌는가입니다.

순위	모델	DeepSWE 점수	해석
1	GPT-5.5 [xhigh]	70% +- 4%	공식 DeepSWE 리더보드에서 공개된 최고 통과율입니다.
2	Claude Opus 4.8 [max]	58% +- 5%	공식 리더보드에 추가된 최신 Opus 결과로, Opus 4.7 max보다 높지만 GPT-5.5보다는 낮습니다.
3	GPT-5.4 [xhigh]	56% +- 5%	제시된 오차 범위 안에서는 Opus 4.8과 가깝고, Datacurve는 비용 효율성도 함께 언급합니다.
4	Claude Opus 4.7 [max]	54% +- 5%	제시된 오차 범위 안에서는 GPT-5.4와 가깝지만, 현재 이 벤치마크에서는 Opus 4.8보다 낮습니다.
5	Claude Sonnet 4.6 [high]	32% +- 4%	긴 호흡의 DeepSWE 작업에서 더 낮은 통과율을 보였습니다.

이 결과의 핵심 의미는 격차입니다. Datacurve는 같은 최첨단 모델 계열 안에서도 DeepSWE 점수 범위가 SWE-bench Pro보다 훨씬 넓다고 설명하며, 이는 긴 호흡의 새 작업이 더 짧거나 이미 포화된 공개 벤치마크에서는 숨겨질 수 있는 능력 차이를 드러낸다는 뜻입니다.

이 결과는 코딩 사용자에게 무엇을 의미하나요?

이 벤치마크를 의사결정 입력값으로 쓰되, 최종 후보는 반드시 여러분의 저장소에서 다시 검증하세요.

프로그래밍용 AI 모델을 고르는 사용자에게 DeepSWE가 주는 메시지는, 실제로 해야 하는 일을 기준으로 모델을 평가하라는 것입니다. 낯선 저장소에서 여러 파일을 바꾸는 작업이 핵심이라면, 긴 호흡의 벤치마크는 짧은 코딩 퀴즈나 이미 포화된 리더보드보다 더 관련성 높은 참고 지표가 될 수 있습니다.

이 결과는 통과율만이 유일한 실용 지표가 아니라는 점도 보여 줍니다. Datacurve는 출력 토큰, 실제 경과 시간, 시도당 비용도 함께 추적하며, 더 많은 토큰과 더 긴 시간, 더 높은 비용이 항상 더 좋은 결과로 이어지지 않는다고 말합니다. 개발자는 신뢰성, 비용, 지연 시간, 요구사항 누락 빈도를 함께 비교해야 합니다.

합리적인 워크플로는 DeepSWE를 하나의 벤치마크 전용 데이터 포인트로 활용한 뒤, 상위 후보 모델을 여러분의 저장소, 언어, 리뷰 기준에 맞춰 직접 시험해 보고 나서 기본 코딩 도우미를 정하는 것입니다.

참고 지표 01

벤치마크를 실제 워크플로와 맞추세요

개발자가 주로 저장소 탐색과 다중 파일 변경을 수행한다면 긴 호흡의 평가를 우선시하세요.

참고 지표 02

속도만이 아니라 신뢰성을 보세요

기본 모델을 정하기 전에 순수 통과율뿐 아니라 요구사항 누락, 재작업, 비용, 지연 시간을 함께 추적하세요.

참고 지표 03

직접 비교 평가를 돌리세요

벤치마크는 후보군을 좁혀 줄 뿐이며, 최종 선택은 여러분의 저장소와 리뷰 기준, 위험 허용도에서 나와야 합니다.

DeepSWE 작업과 벤치마크 실행 방법

이 벤치마크는 다양한 저장소 작업을 다루며, 빠른 시작 가이드는 재현 가능한 에이전트 실행을 위해 설계되었습니다.

작업 범위

DeepSWE에는 어떤 작업이 포함되나요?

DeepSWE에는 TypeScript, Go, Python, JavaScript, Rust 저장소 전반에 걸친 113개의 안정적인 작업이 포함됩니다. Datacurve가 공개한 예시로는 종료 시 대기 중인 body 읽기 중단, PromQL 라벨 정렬 수정, 명령줄 도구에 설정 파일 파싱 추가, Y.Map 쓰기에 결정론적 충돌 감지 추가, XML diff, patch, merge 연산 추가 등이 있습니다.

런타임 동작 종료 처리, 취소, 비동기 수명 주기, 회귀에 민감한 동작.

자료구조 정렬, 페이지네이션, 맵, 스냅샷, 스키마 조합, 결정론적 충돌 규칙.

개발자 도구 CLI 설정 파싱, 매니페스트, 린팅, 프로파일링, 캐시, 생성 보고서.

빠른 시작

DeepSWE는 어떻게 실행하나요?

Datacurve는 DeepSWE 작업이 Harbor와 호환되며, 샌드박스 기반 코딩 에이전트 평가 프레임워크인 Pier로 실행할 수 있다고 설명합니다. 공식 빠른 시작은 DeepSWE 저장소를 복제하고, Pier를 설치한 뒤, 선택한 에이전트와 모델을 작업 디렉터리에 대해 실행합니다.

git clone https://github.com/datacurve-ai/deep-swe
uv tool install git+https://github.com/datacurve-ai/pier

# Codex에서 GPT-5.5 실행
export OPENAI_API_KEY=...
pier run -p deep-swe/tasks --agent mini-swe-agent --model openai/gpt-5.5

# Claude Code에서 Claude Opus 4.7 실행
export ANTHROPIC_API_KEY=...
pier run -p deep-swe/tasks --agent mini-swe-agent --model anthropic/claude-opus-4-7

DeepSWE 벤치마크: 긴 호흡의 코딩 작업에서 GPT가 Claude를 앞서는 이유

왜 DeepSWE에서는 GPT가 Claude보다 앞서는 것으로 보일까요?

첫째, DeepSWE에서 GPT는 가장 눈에 띄는 한 부분만 처리하는 것이 아니라 요구사항 전체를 끝까지 수행하는 데 더 강합니다.

둘째, GPT는 작업을 해석하는 방식이 더 안정적이고, 결과가 운에 덜 좌우됩니다.

셋째, DeepSWE는 장기적인 엔지니어링 역량을 더 강하게 시험하며, GPT는 이런 환경에서 더 좋은 성과를 냅니다.

넷째, GPT는 점수만 높은 것이 아니라 효율도 더 좋습니다.

다섯째, DeepSWE는 벤치마크 누수 영향을 줄여서 GPT의 실제 역량을 더 잘 드러냅니다.

Opus 4.8은 DeepSWE에서 GPT-5.5를 따라잡았나요?

DeepSWE란 무엇인가요?

DeepSWE는 무엇에 쓰이나요?

DeepSWE의 장점은 무엇인가요?

새로 작성된 작업은 오염 위험을 낮춥니다

긴 호흡의 작업은 에이전트형 개발에 더 가깝습니다

더 넓은 저장소 커버리지

동작 검증기는 올바른 결과를 보상합니다

DeepSWE 벤치마크 결과는 무엇인가요?

이 결과는 코딩 사용자에게 무엇을 의미하나요?

벤치마크를 실제 워크플로와 맞추세요

속도만이 아니라 신뢰성을 보세요

직접 비교 평가를 돌리세요

DeepSWE 작업과 벤치마크 실행 방법

DeepSWE에는 어떤 작업이 포함되나요?

DeepSWE는 어떻게 실행하나요?