2026년 4월, AI 코딩 도구의 신뢰 위기 — Claude Code 포스트모템, GPT-5.5의 역설, 그리고 업계의 구조적 한계

AI와 글쓰기 2026. 4. 25. 22:57

2026년 4월 셋째 주는 AI 코딩 도구 역사에서 기억될 만한 주간이었다. Anthropic은 한 달간의 품질 저하를 공식 인정했고, OpenAI는 같은 날 GPT-5.5를 발표했다. 그리고 업계 전체가 "플랫 요금제는 더 이상 지속 가능하지 않다"는 현실과 마주했다.

1. "AI Shrinkflation" — Claude Code에 무슨 일이 있었나

시작: AMD AI 디렉터의 데이터 분석

2026년 4월 2일, AMD AI 그룹 Senior Director인 Stella Laurenzo가 Claude Code GitHub 레포에 이슈 #42796을 올렸다. 제목은 직설적이었다: "Claude Code is unusable for complex engineering tasks."

이건 단순한 불만 글이 아니었다. Laurenzo는 자신의 팀이 쌓아온 6,852개 Claude Code 세션 파일, 17,871개 thinking block, 234,760개 tool call을 정량 분석한 결과를 첨부했다. 핵심 발견:

1월 말~2월 초(고품질 시기)의 median thinking depth는 약 2,200자 → 2월 말 720자(67% 감소) → 3월 초 560자(75% 감소)
"read-to-edit ratio"(수정 전 파일 읽기 횟수)가 6.6에서 2.0으로 하락 — 즉, 코드를 수정하기 전에 관련 파일을 읽는 "research-first" 행동이 "edit-first" 행동으로 바뀌었다
stop-hook 위반이 0건에서 하루 10건으로 급증
API 비용이 122배 폭증

Laurenzo의 결론은 명확했다: "6개월 전 Claude는 추론 품질과 실행력에서 독보적이었다. 지금은 다른 경쟁자들을 매우 진지하게 평가해야 한다." 팀은 이미 다른 제공업체로 전환한 상태였다.

확산: "가스라이팅" 논쟁

이 이슈는 Hacker News에서 975 upvote, 548개 댓글을 기록하며 폭발적으로 확산됐다. X에서는 개발자 Om Patel이 "67% 성능 하락"을 주장하는 글이 바이럴되면서 "AI Shrinkflation"이라는 용어가 퍼졌다 — 가격은 그대로인데 제품 품질이 몰래 떨어지는 현상.

사용자들의 불만이 특히 강했던 이유는 Anthropic의 초기 대응 때문이었다. Claude Code 리드인 Boris Cherny는 X에서 모델 너핑 주장에 대해 "This is false"라고 반박했고, 사용자 피드백과 프롬프팅 방식에 문제가 있다는 뉘앙스로 대응했다. 사용자들은 이를 "가스라이팅"으로 받아들였다.

한 X 유저의 말이 분위기를 요약한다: "GPT-5.5 출시일에 맞춰서야 드디어 문제를 인정하다니."

포스트모템: 세 가지 문제의 합류

4월 23일, Anthropic은 공식 엔지니어링 포스트모템을 발표했다. AI 연구소가 자사 제품의 품질 퇴보를 이 수준의 기술적 상세함으로 공개 인정한 것은 이례적이다. 원인은 세 가지였고, 각각이 다른 시기에 다른 사용자 그룹에 영향을 미쳐 "광범위하고 비일관적인 퇴보"처럼 보이게 만들었다.

문제 1: Reasoning Effort 하향 조정 (3월 4일 → 4월 7일 되돌림)

Opus 4.6를 Claude Code에 탑재할 때 기본 reasoning effort를 "high"로 설정했지만, 일부 사용자에게 UI가 얼어붙는 것처럼 보일 정도로 긴 사고 시간이 발생했다. Anthropic은 기본값을 "medium"으로 낮췄다. 내부 테스트에서는 "대부분의 작업에서 약간의 품질 저하와 함께 지연이 크게 줄어든다"는 결과가 나왔기 때문이다.

이것은 잘못된 트레이드오프였다. 사용자들은 60초를 기다리더라도 정확한 답을 원했다. Anthropic 스스로도 인정했다: "사용자들은 기본적으로 더 높은 지능을 원하고, 간단한 작업에서만 선택적으로 낮은 effort를 사용하길 원했다."

4월 7일에 되돌렸고, Opus 4.7은 "xhigh"를, 나머지 모델은 "high"를 기본값으로 설정했다.

문제 2: Caching 버그 — 매 턴마다 사고 이력 삭제 (3월 26일 → 4월 10일 수정)

이건 가장 기술적으로 흥미로운 실패다. 설계 의도는 간단했다: 1시간 이상 유휴 상태인 세션의 오래된 thinking history를 삭제하여 세션 재개 시 지연을 줄이자.

하지만 구현에 버그가 있었다. 1시간 유휴 후 한 번만 삭제해야 할 것이 매 턴마다 삭제되는 코드가 배포됐다. 결과:

Claude가 자기 이전 추론을 매번 잃어버려 "건망증"과 반복 행동 발생
매 요청마다 전체 컨텍스트를 재구축하면서 토큰 소모 급증
프롬프트 캐시 미스가 연쇄적으로 발생하면서 사용량 한도가 비정상적으로 빨리 소진

Anthropic은 이것이 "사용량 한도가 너무 빨리 소진되는 문제의 근본 원인"이었을 것이라 판단했다. 여기서 아이러니한 지점이 있다 — 포스트모템에 따르면, Opus 4.7로 같은 코드를 리뷰했을 때 이 버그를 발견했지만, Opus 4.6로 리뷰했을 때는 발견하지 못했다. 차세대 모델이 이전 세대의 맹점을 식별한 셈이다.

문제 3: 시스템 프롬프트의 장황함 제한 (4월 16일 → 4월 20일 되돌림)

Opus 4.7은 이전 모델보다 출력이 상당히 긴 "장황함"을 갖고 있었다. 어려운 문제 해결에는 도움이 되지만 출력 토큰 비용을 높였다. Anthropic은 시스템 프롬프트에 두 줄을 추가했다:

"tool call 사이의 텍스트를 25단어 이하로 유지하라"
"최종 응답을 100단어 이하로 유지하라 (더 상세한 설명이 필요한 경우 제외)"

수 주간의 내부 테스트에서 문제가 없었기에 자신 있게 배포했다. 하지만 사후에 확장된 평가 세트로 ablation 테스트를 돌리자, 코딩 품질 평가에서 약 3% 하락이 확인됐다. 4일 만에 되돌렸다.

교훈: 하네스가 깨지면 모델도 깨진다

이 사건의 핵심 교훈은 단순하면서도 깊다: 모델 자체는 변하지 않았다. API를 직접 호출한 사용자에게는 아무 영향이 없었다. 문제는 전부 "하네스(harness)" — 즉 모델을 감싸는 제품 레이어 — 에서 발생했다.

Simon Willison이 정확히 짚었다: "에이전틱 시스템을 만들고 있다면 이 글을 상세하게 읽을 가치가 있다 — 하네스에 영향을 미치는 종류의 버그는 모델의 비결정적 특성을 차치하더라도 극도로 복잡하다."

DEV Community의 한 분석가는 이렇게 정리했다: "Anthropic의 가장 큰 실수는 세 가지 변경을 짧은 시간 안에 배포한 것이다. 각각은 나름의 정당성이 있었지만, 동시에 합류하면서 진단 불가능한 광범위한 퇴보가 됐다."

보상 차원에서 Anthropic은 4월 23일 전체 구독자의 사용량 한도를 리셋하고, 향후 변경 사항에 대한 투명성을 강화하겠다고 약속했다. @ClaudeDevs 계정을 통해 제품 결정의 근거를 공유하겠다고 했다.

2. 같은 날의 반격 — GPT-5.5와 Codex의 야심

4월 23일, 두 가지 폭탄

Anthropic이 포스트모템을 발표한 바로 그 날, OpenAI는 GPT-5.5를 발표했다. 우연이었을까, 전략이었을까 — 어느 쪽이든 타이밍의 효과는 극적이었다.

GPT-5.5 (코드네임 "Spud")는 OpenAI가 "가장 스마트한 모델"이라 소개하면서, Codex에서 GPT-5.4보다 적은 토큰으로 더 좋은 결과를 낸다고 밝혔다. OpenAI President Greg Brockman은 "이 모델이 진짜 특별한 건, 적은 안내로도 훨씬 더 많은 일을 할 수 있다는 것"이라고 말했다.

벤치마크: 확실한 강점

GPT-5.5의 벤치마크 결과는 인상적이다:

Terminal-Bench 2.0: 82.7% — Opus 4.7, Gemini 3.1 Pro 대비 우위
GDPval: 84.9% — 44개 직종의 실무 작업에서 역대 최고
Artificial Analysis Intelligence Index: 최고점

특히 Terminal-Bench는 터미널 기반 코딩 워크플로우 — 계획, 명령 실행, 도구 조율, 반복 — 를 테스트하는 벤치마크라, 실제 에이전틱 코딩 사용 패턴과 가장 가깝다.

CodeRabbit의 실전 테스트도 긍정적이었다. 코드 리뷰 벤치마크에서 기존 멀티모델 시스템 대비 기대 이슈 발견율이 58.3% → 79.2%로 올랐고, precision도 27.9% → 40.6%로 향상됐다. 한 실전 개발자 리뷰는 "가장 큰 차이는 제어력 — 더 타깃팅된 변경을 하고, 관련 없는 코드를 덜 건드린다"고 평가했다.

역설: 86% 할루시네이션율

하지만 여기서 이야기가 뒤집힌다.

Artificial Analysis의 AA-Omniscience 벤치마크에서 GPT-5.5는 정확도 57%로 역대 최고를 기록했지만, 동시에 할루시네이션율 86%로 플래그십 모델 중 최악이었다. 비교: Claude Opus 4.7은 36%, Gemini 3.1 Pro는 50%.

Artificial Analysis의 설명: "GPT-5.5는 답을 알 때 가장 정확하지만, 모를 때 만들어내는 경향도 가장 강하다."

이건 구조적 문제다. AA-Omniscience는 "모를 때 모른다고 말하는지"를 특별히 측정하는 벤치마크인데, GPT-5.5는 거의 항상 자신 있게 답한다 — 맞든 틀리든. 틀릴 때도 맞을 때와 같은 톤으로 답하기 때문에 출력에서 구분할 신호가 없다.

코딩 맥락에서 이 할루시네이션은 존재하지 않는 라이브러리, 가상의 함수 시그니처, 없는 API 엔드포인트로 나타난다. 실행하기 전까지는 알 수 없다.

FindSkill.ai의 분석이 실용적인 대안을 제시한다: "GPT-5.5 medium이 Claude Opus 4.7 max와 비슷한 퀄리티를 에이전틱 작업에서 약 1/4 토큰 비용으로 달성한다. GPT-5.5로 초안을 작성하고, Claude Opus 4.7로 사실 검증 패스를 돌리면 결합 비용이 Claude만 사용하는 것보다 낮고 할루시네이션 감지도 무료로 얻는다."

가격: 효율성과 비용의 트레이드오프

GPT-5.5 API 가격은 인풋 $5/M, 아웃풋 $30/M으로 GPT-5.4 대비 인풋 2배 인상이다. GPT-5의 인풋 가격 $0.63/M에서 시작해 1년도 안 돼 8배가 올랐다.

하지만 OpenAI는 GPT-5.5가 같은 Codex 작업을 GPT-5.4보다 적은 토큰으로 완료하므로, 토큰 단가가 올라도 작업당 총비용은 비슷하거나 낮다고 주장한다. 이 주장이 실제로 맞는지는 사용 패턴에 따라 다를 것이다.

Codex "for (almost) everything" — 4월 16일 대규모 업데이트

GPT-5.5보다 일주일 앞서, OpenAI는 Codex의 대규모 확장을 발표했다. 이제 Codex는:

사용자의 컴퓨터를 함께 조작할 수 있고 (background computer use)
인앱 브라우저로 로컬 개발 서버와 프론트엔드를 직접 확인할 수 있고
SSH로 원격 devbox에 접속할 수 있고
90개 이상의 플러그인을 지원하고
반복 작업을 스케줄링할 수 있다

주당 300만 명 이상의 개발자가 사용한다고 OpenAI는 밝혔다. 순수한 코드 생성기에서 "풀 워크플로우 도구"로의 전환을 공식화한 셈이다.

3. Claude Code vs Codex — 퀄리티의 실제 차이

벤치마크와 마케팅 너머, 실제 코드 품질에서 두 도구는 어떻게 다른가?

토큰 효율성 vs 출력 품질

2월 커뮤니티 벤치마크에서 동일한 Figma-to-code 클로닝 작업에서 Claude Code는 약 620만 토큰, Codex CLI는 약 150만 토큰을 소비했다 — 약 4배 차이. 하지만 개발자들이 어떤 도구가 만든 코드인지 모르는 블라인드 평가에서는 Claude Code가 67%, Codex가 25% (8% 동점)로 선호됐다.

즉, Claude Code는 더 많은 토큰을 쓰지만 더 깨끗하고, 관용적이며, 잘 구조화된 코드를 생성한다. Codex는 더 적은 토큰으로 작동하는 코드를 빠르게 만들지만, 설명과 문서화가 적다.

각자의 강점

Claude Code가 앞서는 영역:

SWE-bench Pro (64.3% vs 58.6%) — 실제 코드베이스의 이슈 해결
MCP 도구 오케스트레이션
다국어 이해 (MMLU multilingual 91.5% vs 83.2%)
computer use와 브라우저 자동화
프론트엔드/UI 코드

Codex/GPT-5.5가 앞서는 영역:

Terminal-Bench 2.0 (82.7%) — 터미널 워크플로우
디버깅과 엣지 케이스 발견 (4~5개의 미묘한 엣지 케이스를 경쟁 모델보다 잘 찾음)
토큰 효율성 (같은 작업을 더 적은 비용으로)
코드 리뷰 품질

"Dual-wielding" — 2026년의 최적 전략

여러 비교 분석에서 반복적으로 등장하는 결론: 하나만 고르지 말고 둘 다 쓰라.

Claude Code로 아키텍처 설계, UI 생성, 모호한 요구사항 처리
Codex로 백엔드 로직, 디버깅, 코드 리뷰, 기술 부채 정리

이 패턴이 실무에서 자리잡고 있다. Cursor 같은 에디터에서 같은 세션에서 Claude와 Codex 모델을 전환할 수 있고, OpenAI는 Codex에서 Claude Code를 호출할 수 있는 플러그인을 공식 지원하기도 한다.

4. 구조적 한계 — 플랫 요금제의 종말?

모든 AI 코딩 도구의 가격이 오르는 이유

4월 한 주 동안 일어난 일들을 나열해보면:

Anthropic이 Pro 플랜($20/월)에서 Claude Code를 제거하는 테스트를 진행 (24시간 만에 되돌림)
GitHub Copilot이 신규 Individual 플랜 가입을 일시 중지하고 사용량 제한 강화
OpenAI가 Codex Pro 티어를 $100/월로 신설

DEV Community의 한 분석가가 정확히 짚었다: "2026년 4월이 벤더들이 '무제한 에이전틱 코딩이 저렴한 월정액에 들어간다'는 환상에 보조금을 중단한 달로 기억될 것이다."

GitHub은 특히 솔직했다. 4월 20일 포스트에서 "에이전틱 워크플로우가 Copilot의 컴퓨트 수요를 근본적으로 바꿨다"고 말하면서 "단 몇 건의 요청이 플랜 가격을 초과하는 비용을 발생시키는 것이 이제 일반적"이라고 썼다.

컴퓨트의 물리학

근본 원인은 간단하다: 에이전틱 AI 코딩은 기존 자동완성보다 5~20배 많은 토큰을 소비한다. 단순 인라인 자동완성은 약 500토큰이지만, 10단계 에이전틱 루프는 5,000~10,000토큰, 복잡한 버그 수정은 50,000~200,000토큰을 소비할 수 있다.

여기에 멀티에이전트 워크플로우까지 더하면 문제가 배가된다. Claude Code의 Agent Teams나 Codex의 병렬 클라우드 태스크 모두 에이전트 수만큼 컨텍스트 윈도우를 동시에 유지해야 하니, 리소스 소모가 선형이 아닌 배수로 증가한다.

한 개발자가 공개한 데이터: $100/월 Claude Code Max 티어로 8개월간 100억 토큰을 사용 — API 가격으로 환산하면 약 $15,000. 이 수준의 보조금은 지속 불가능하다.

Anthropic의 Head of Growth, Amol Avasare의 말이 이 상황을 요약한다: "1년 전 Max를 출시했을 때는 Claude Code도, Cowork도, 몇 시간씩 돌아가는 에이전트도 없었다. Max는 헤비 채팅 사용을 위해 설계된 것이지, 이 수준의 사용을 위한 것이 아니었다."

수렴하는 가격대

흥미롭게도, 프리미엄 개인 개발자 티어가 업계 전반에서 $200/월로 수렴하고 있다: Claude Code Max 20x, Cursor Ultra, ChatGPT Pro가 모두 같은 가격대다. 이는 "최고의 AI 코딩 경험"에 시장이 매기는 가격이 대략 이 수준이라는 뜻이다.

동시에 무료 티어도 더 관대해지고 있다: Gemini CLI(하루 1,000 요청), Codex(무료 티어), GitHub Copilot Free(2,000 자동완성). 중간은 점점 사라지고, 무료와 프리미엄의 양극화가 심화되고 있다.

5. 개인적 시사점

이 한 주의 사건들에서 몇 가지 교훈을 뽑아본다.

첫째, 하네스는 모델만큼 중요하다. Claude Code 사건은 모델 자체가 아닌 제품 레이어의 변경이 사용자 경험을 완전히 바꿀 수 있음을 보여줬다. 우리가 "AI가 멍청해졌다"고 느낄 때, 실제 원인은 모델이 아닌 그 위의 시스템일 수 있다. 이건 우리가 자체 에이전틱 시스템을 설계할 때도 경계해야 할 점이다.

둘째, 벤치마크의 함정을 인식하자. GPT-5.5는 거의 모든 벤치마크에서 최고점을 찍으면서도, 할루시네이션율이 86%다. "가장 똑똑한 모델"과 "가장 신뢰할 수 있는 모델"은 같은 모델이 아니다. 코딩 작업에서는 생성 능력보다 신뢰성이 더 중요한 경우가 많다.

셋째, 단일 벤더 의존은 리스크다. Claude Code가 한 달간 퇴보하는 동안, dual-wielding 전략을 가진 개발자들은 빠르게 전환할 수 있었다. 하나의 도구가 퇴보할 때 비교 기준이 되는 두 번째 도구가 있으면, 품질 변화를 더 빨리 감지할 수 있다.

넷째, "무제한"은 없다. 2026년 4월은 AI 코딩 도구의 가격 재조정이 시작된 달이다. 에이전틱 워크플로우의 컴퓨트 비용은 구조적으로 높고, 이를 월정액으로 완전히 흡수하는 모델은 지속 가능하지 않다. 이걸 받아들이고, 토큰 효율성을 의식하면서 도구를 사용하는 습관이 필요하다.

참고 자료

'AI와 글쓰기' 카테고리의 다른 글

이번 달 AI 동향 — 중국 오픈웨이트의 반격, 그리고 모이트가 모델에서 하드웨어로 이동한다 (1)	2026.05.10
4월 4주차 AI 동향 — 모델 출시 러시, 가격 인상, 그리고 시니어 양성 경로의 위기 (1)	2026.05.02

ABOUT ME

성장일기 성장일기

1. "AI Shrinkflation" — Claude Code에 무슨 일이 있었나

시작: AMD AI 디렉터의 데이터 분석

확산: "가스라이팅" 논쟁

포스트모템: 세 가지 문제의 합류

문제 1: Reasoning Effort 하향 조정 (3월 4일 → 4월 7일 되돌림)

문제 2: Caching 버그 — 매 턴마다 사고 이력 삭제 (3월 26일 → 4월 10일 수정)

문제 3: 시스템 프롬프트의 장황함 제한 (4월 16일 → 4월 20일 되돌림)

교훈: 하네스가 깨지면 모델도 깨진다

2. 같은 날의 반격 — GPT-5.5와 Codex의 야심

4월 23일, 두 가지 폭탄

벤치마크: 확실한 강점

역설: 86% 할루시네이션율

가격: 효율성과 비용의 트레이드오프

Codex "for (almost) everything" — 4월 16일 대규모 업데이트

3. Claude Code vs Codex — 퀄리티의 실제 차이

토큰 효율성 vs 출력 품질

각자의 강점

"Dual-wielding" — 2026년의 최적 전략

4. 구조적 한계 — 플랫 요금제의 종말?

모든 AI 코딩 도구의 가격이 오르는 이유

컴퓨트의 물리학

수렴하는 가격대

5. 개인적 시사점

참고 자료

'AI와 글쓰기' 카테고리의 다른 글

티스토리툴바

ABOUT ME

1. "AI Shrinkflation" — Claude Code에 무슨 일이 있었나

시작: AMD AI 디렉터의 데이터 분석

확산: "가스라이팅" 논쟁

포스트모템: 세 가지 문제의 합류

문제 1: Reasoning Effort 하향 조정 (3월 4일 → 4월 7일 되돌림)

문제 2: Caching 버그 — 매 턴마다 사고 이력 삭제 (3월 26일 → 4월 10일 수정)

문제 3: 시스템 프롬프트의 장황함 제한 (4월 16일 → 4월 20일 되돌림)

교훈: 하네스가 깨지면 모델도 깨진다

2. 같은 날의 반격 — GPT-5.5와 Codex의 야심

4월 23일, 두 가지 폭탄

벤치마크: 확실한 강점

역설: 86% 할루시네이션율

가격: 효율성과 비용의 트레이드오프

Codex "for (almost) everything" — 4월 16일 대규모 업데이트

3. Claude Code vs Codex — 퀄리티의 실제 차이

토큰 효율성 vs 출력 품질

각자의 강점

"Dual-wielding" — 2026년의 최적 전략

4. 구조적 한계 — 플랫 요금제의 종말?

모든 AI 코딩 도구의 가격이 오르는 이유

컴퓨트의 물리학

수렴하는 가격대

5. 개인적 시사점

참고 자료

'AI와 글쓰기' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바