DS deepswe.net
언어 버전
DeepSWE 벤치마크 가이드

DeepSWE 벤치마크: 긴 호흡의 코딩 작업에서 GPT가 Claude를 앞서는 이유

DeepSWE는 Datacurve가 만든 새로운 긴 호흡의 소프트웨어 엔지니어링 벤치마크입니다. 공개된 결과에서 GPT-5.5는 새로 작성된 다중 파일 코딩 작업에서 Claude Opus 4.7을 앞서며, AI 코딩 모델을 선택하는 개발자에게 하나의 벤치마크 참고 지표를 제공합니다.

작업 데이터셋 113개의 새로 작성된 엔지니어링 작업
저장소 범위 91개의 활발한 오픈소스 저장소
공개 리더보드 1위 GPT-5.5, 통과율 70%
이 페이지가 답하는 내용 개요
  • DeepSWE가 무엇을 측정하는지, 그리고 짧은 코딩 퍼즐보다 왜 더 현실적인지.
  • 현재 공개 리더보드에서 GPT와 Claude가 긴 호흡의 작업에서 어떻게 비교되는지.
  • 개발자가 코딩 모델을 고르기 전에 어떤 실무적인 판단 기준을 읽어야 하는지.

DeepSWE란 무엇인가요?

짧은 정답형 코딩이 아니라, 실제 저장소 수준의 엔지니어링 동작을 시험하도록 설계된 벤치마크입니다.

DeepSWE는 최첨단 코딩 에이전트를 새로 작성된 긴 호흡의 소프트웨어 엔지니어링 작업으로 평가하는 벤치마크입니다. Datacurve는 저장소 탐색, 여러 파일 변경, 동작의 정확성, 검증이 필요한 현실적 코딩 업무를 AI 에이전트가 얼마나 잘 처리하는지 측정하기 위해 이를 공개했습니다.

기존 풀 리퀘스트나 공개 커밋에서 복사한 작업과 달리, DeepSWE 작업은 처음부터 새로 작성됩니다. Datacurve는 이 설계가 학습 데이터 오염을 줄이고, 단순한 회상이 아니라 문제 해결 능력을 시험하기 위한 것이라고 설명합니다.

DeepSWE는 무엇에 쓰이나요?

여러 파일에 걸친 구현, 검증, 실제 제약 하에서의 신뢰성이 중요한 팀에게 특히 유용합니다.

DeepSWE는 짧은 코딩 퍼즐보다 실제 소프트웨어 엔지니어링 업무에 더 가까운 작업으로 AI 코딩 에이전트를 비교하는 데 사용됩니다. 연구자, 모델 제공자, 엔지니어링 팀은 이를 통해 어떤 에이전트가 개발자 스타일의 간결한 요청을 따르고, 낯선 코드베이스를 살펴보고, 변경을 구현하며, 기존 동작을 유지할 수 있는지 판단할 수 있습니다.

새로운 에이전트의 점수를 내거나 공개 리더보드를 재현하고 싶은 팀도 이 벤치마크를 직접 실행할 수 있습니다. Datacurve는 작업 데이터셋, 작업 메타데이터, 검증기 형식, 그리고 Pier로 DeepSWE를 실행하는 방법을 공개합니다.

DeepSWE의 장점은 무엇인가요?

더 작거나 이미 포화된 평가에서는 잘 보이지 않는 능력 차이를 드러내도록 설계되어 있습니다.

DeepSWE는 독자적으로 작성된 작업, 더 넓은 저장소 범위, 결과 중심 검증에 초점을 맞춘다는 점에서 두드러집니다. 이런 선택 덕분에 단순 회상이나 작은 수정 위주 벤치마크보다 실제 코딩 에이전트 업무를 더 잘 대변합니다.

113 개의 새로 작성된 소프트웨어 엔지니어링 작업
91 개의 활발한 오픈소스 저장소
5 개 언어: TypeScript, Go, Python, JavaScript, Rust
668 참조 해법에서 평균적으로 추가된 코드 줄 수
1

새로 작성된 작업은 오염 위험을 낮춥니다

DeepSWE 작업은 공개된 수정 사항을 변형한 것이 아닙니다. 따라서 모델이 학습 중 답을 이미 봤기 때문에 점수가 높아지는 가능성을 줄여 줍니다.

2

긴 호흡의 작업은 에이전트형 개발에 더 가깝습니다

Datacurve에 따르면 DeepSWE 프롬프트는 SWE-bench Pro보다 더 짧지만, 참조 해법에는 훨씬 더 많은 코드와 파일이 필요합니다.

3

더 넓은 저장소 커버리지

작업 세트는 소수의 대표 프로젝트에 집중하지 않고 많은 활발한 저장소를 가로지르기 때문에, 일상적인 코딩 에이전트 업무를 더 넓게 대변합니다.

4

동작 검증기는 올바른 결과를 보상합니다

DeepSWE 검증기는 내부 구현 형태보다 관찰 가능한 동작을 시험하도록 설계되어 있어, 서로 다른 정답 구현도 통과할 수 있습니다.

DeepSWE 벤치마크 결과는 무엇인가요?

핵심은 단순한 순위보다, 최첨단 모델 계열 사이의 격차가 얼마나 벌어졌는가입니다.

순위 모델 DeepSWE 점수 해석
1 GPT-5.5 [xhigh] 70% +- 4% 공식 DeepSWE 리더보드에서 공개된 최고 통과율입니다.
2 GPT-5.4 [xhigh] 56% +- 5% 전체 2위이며 Datacurve는 비용 효율성도 함께 언급합니다.
3 Claude Opus 4.7 [max] 54% +- 5% 제시된 오차 범위 안에서는 GPT-5.4와 가깝지만, 이 벤치마크에서는 GPT-5.5보다 낮습니다.
4 Claude Sonnet 4.6 [high] 32% +- 4% 긴 호흡의 DeepSWE 작업에서 더 낮은 통과율을 보였습니다.

이 결과의 핵심 의미는 격차입니다. Datacurve는 같은 최첨단 모델 계열 안에서도 DeepSWE 점수 범위가 SWE-bench Pro보다 훨씬 넓다고 설명하며, 이는 긴 호흡의 새 작업이 더 짧거나 이미 포화된 공개 벤치마크에서는 숨겨질 수 있는 능력 차이를 드러낸다는 뜻입니다.

왜 DeepSWE는 GPT가 Claude보다 강하다고 말하나요?

근거는 분명하지만, 여전히 하나의 벤치마크 설계와 하나의 채점 체계 안에서 나온 근거입니다.

DeepSWE가 GPT가 Claude보다 강하다고 시사하는 범위는 벤치마크가 실제로 측정한 환경 안에 한정됩니다. 즉, 표준화된 실행 하네스에서 수행된 새로 작성된 긴 호흡의 소프트웨어 엔지니어링 작업입니다. 가장 분명한 근거는 리더보드입니다. GPT-5.5는 70%, Claude Opus 4.7은 54%를 기록했습니다. GPT-5.4는 56%로 Claude Opus 4.7보다 위에 있지만, 제시된 오차 범위는 서로 겹칩니다.

Datacurve의 정성 분석은 이 격차에 대한 한 가지 설명을 제공합니다. 검토한 DeepSWE 실행 경로에서 GPT-5.5는 명시된 동작을 놓친 비율이 가장 낮았고, GPT-5.4도 그 뒤를 바짝 따랐습니다. 같은 분석은 Claude 구성이 여러 갈래로 나뉜 요구사항 중 한 갈래를 더 자주 놓쳤다고 설명합니다. 예를 들어 동기 경로는 구현했지만 비동기 대응은 빠뜨리는 식입니다.

그렇다고 Claude가 모든 코딩 작업에서 약하다는 뜻은 아닙니다. 뜻하는 바는 DeepSWE의 작업 설계와 채점 방식 아래에서는 GPT 계열이 요구된 전체 동작을 끝까지 완성하는 데 더 안정적이었다는 점입니다. 사용자 입장에서 신중한 결론은 이렇습니다. DeepSWE는 현재 이 특정한 긴 호흡의 코딩 에이전트 평가 범주에서 GPT가 Claude를 앞선다는 근거입니다.

리더보드가 보여 주는 것

실제로 벤치마크 우위가 존재합니다

공개 리더보드에서 GPT-5.5는 현재 1위이며, Claude Sonnet 4.6과는 더 큰 차이를 보이고, Claude Opus 4.7과도 더 좁지만 의미 있는 격차를 유지합니다.

피해야 할 해석

결과를 과도하게 일반화하지 마세요

DeepSWE는 긴 호흡의 코딩 에이전트에 대한 강한 참고 지표이지만, 모든 코드베이스와 언어 조합, 제품 워크플로에 통용되는 보편적 순위표는 아닙니다.

이 결과는 코딩 사용자에게 무엇을 의미하나요?

이 벤치마크를 의사결정 입력값으로 쓰되, 최종 후보는 반드시 여러분의 저장소에서 다시 검증하세요.

프로그래밍용 AI 모델을 고르는 사용자에게 DeepSWE가 주는 메시지는, 실제로 해야 하는 일을 기준으로 모델을 평가하라는 것입니다. 낯선 저장소에서 여러 파일을 바꾸는 작업이 핵심이라면, 긴 호흡의 벤치마크는 짧은 코딩 퀴즈나 이미 포화된 리더보드보다 더 관련성 높은 참고 지표가 될 수 있습니다.

이 결과는 통과율만이 유일한 실용 지표가 아니라는 점도 보여 줍니다. Datacurve는 출력 토큰, 실제 경과 시간, 시도당 비용도 함께 추적하며, 더 많은 토큰과 더 긴 시간, 더 높은 비용이 항상 더 좋은 결과로 이어지지 않는다고 말합니다. 개발자는 신뢰성, 비용, 지연 시간, 요구사항 누락 빈도를 함께 비교해야 합니다.

합리적인 워크플로는 DeepSWE를 하나의 벤치마크 전용 데이터 포인트로 활용한 뒤, 상위 후보 모델을 여러분의 저장소, 언어, 리뷰 기준에 맞춰 직접 시험해 보고 나서 기본 코딩 도우미를 정하는 것입니다.

참고 지표 01

벤치마크를 실제 워크플로와 맞추세요

개발자가 주로 저장소 탐색과 다중 파일 변경을 수행한다면 긴 호흡의 평가를 우선시하세요.

참고 지표 02

속도만이 아니라 신뢰성을 보세요

기본 모델을 정하기 전에 순수 통과율뿐 아니라 요구사항 누락, 재작업, 비용, 지연 시간을 함께 추적하세요.

참고 지표 03

직접 비교 평가를 돌리세요

벤치마크는 후보군을 좁혀 줄 뿐이며, 최종 선택은 여러분의 저장소와 리뷰 기준, 위험 허용도에서 나와야 합니다.

DeepSWE 작업과 벤치마크 실행 방법

이 벤치마크는 다양한 저장소 작업을 다루며, 빠른 시작 가이드는 재현 가능한 에이전트 실행을 위해 설계되었습니다.

작업 범위

DeepSWE에는 어떤 작업이 포함되나요?

DeepSWE에는 TypeScript, Go, Python, JavaScript, Rust 저장소 전반에 걸친 113개의 안정적인 작업이 포함됩니다. Datacurve가 공개한 예시로는 종료 시 대기 중인 body 읽기 중단, PromQL 라벨 정렬 수정, 명령줄 도구에 설정 파일 파싱 추가, Y.Map 쓰기에 결정론적 충돌 감지 추가, XML diff, patch, merge 연산 추가 등이 있습니다.

런타임 동작 종료 처리, 취소, 비동기 수명 주기, 회귀에 민감한 동작.
자료구조 정렬, 페이지네이션, 맵, 스냅샷, 스키마 조합, 결정론적 충돌 규칙.
개발자 도구 CLI 설정 파싱, 매니페스트, 린팅, 프로파일링, 캐시, 생성 보고서.
빠른 시작

DeepSWE는 어떻게 실행하나요?

Datacurve는 DeepSWE 작업이 Harbor와 호환되며, 샌드박스 기반 코딩 에이전트 평가 프레임워크인 Pier로 실행할 수 있다고 설명합니다. 공식 빠른 시작은 DeepSWE 저장소를 복제하고, Pier를 설치한 뒤, 선택한 에이전트와 모델을 작업 디렉터리에 대해 실행합니다.

git clone https://github.com/datacurve-ai/deep-swe
uv tool install git+https://github.com/datacurve-ai/pier

# Codex에서 GPT-5.5 실행
export OPENAI_API_KEY=...
pier run -p deep-swe/tasks --agent mini-swe-agent --model openai/gpt-5.5

# Claude Code에서 Claude Opus 4.7 실행
export ANTHROPIC_API_KEY=...
pier run -p deep-swe/tasks --agent mini-swe-agent --model anthropic/claude-opus-4-7