Erstens setzt GPT in DeepSWE die vollständige Anfrage besser um, nicht nur den offensichtlichsten Teil.
DeepSWE-Aufgaben sind oft mehr als ein einfacher Bugfix. Sie verlangen regelmäßig, mehrere parallele Fälle zugleich zu behandeln: den synchronen und den asynchronen Pfad zu unterstützen oder ein Eingabeformat und ein eng verwandtes Format zu verarbeiten. Datacurves Analyse ergab, dass Claude oft eine Lösung erzeugte, die fast korrekt aussah, aber dennoch einen Zweig ausließ. Einfach gesagt: Der Hauptpfad kann stimmen, während dieselbe Logik im zweiten Szenario fehlt. GPT-5.5 hatte dagegen in DeepSWE die niedrigste Rate ausgelassener ausdrücklicher Anforderungen, mit GPT-5.4 dicht dahinter. Das legt nahe, dass GPT jede Anforderung im Prompt besser in tatsächliche Codeänderungen übersetzt.