GPT-5.4가 나왔다 — AI 엔지니어가 주목한 세 가지 변화

2026년 3월 5일, OpenAI가 GPT-5.4를 출시했다.

같은 날 Fortune은 “OpenAI가 Anthropic의 기업 고객 텃밭을 직접 겨냥했다”는 기사를 냈다.

이 타이밍이 우연이 아니라는 걸 배경을 알면 바로 알 수 있다.

기술 스펙을 보기 전에 먼저 그 맥락을 짚고 싶었다. GPT-5.4는 단순한 모델 업데이트가 아니다.

1. GPT-5 시리즈의 진화 흐름

지난 8개월간 OpenAI의 모델 릴리스를 정리하면 이렇다.

2025년 8월   GPT-5        — 베이스라인. 추론 능력 대폭 향상
2025년 10월  GPT-5.2      — 과학·수학 특화, GDPval 벤치마크 강화
2025년 12월  GPT-5.3-Codex — 코딩 전용 모델. 코드 생성·리팩토링 집중
2026년 3월   GPT-5.4      — 위 셋을 통합. "전문직 업무용 가장 강력한 모델"

GPT-5.4의 포지셔닝 키워드는 “professional work”다.

코딩, 컴퓨터 유즈, 재무 문서, 프레젠테이션. Anthropic이 기업 고객에게 강하게 어필해온 영역과 정확히 겹친다.

특히 GPT-5.3-Codex의 코딩 능력을 메인라인 추론 모델에 처음으로 통합한 것이 GPT-5.4다.

이전까지는 코딩과 추론이 별도 모델에 분리되어 있었다.

2. 세 가지 모델 변형: 뭘 써야 하는가

GPT-5.4는 세 가지로 나뉜다.

GPT-5.4는 표준 버전. 일반 용도에 쓰는 기본 모델이다. API에서 gpt-5.4로 호출한다.

GPT-5.4 Thinking은 추론 특화 버전. Extended chain-of-thought를 사용한다.

ChatGPT Plus, Team, Pro 사용자 대상으로 출시되었고 기존 GPT-5.2 Thinking을 대체한다.

긴 추론이 필요한 작업, 복잡한 코드 생성, 수학 문제에 적합하다.

GPT-5.4 Pro는 최고 성능 버전. Pro와 Enterprise 플랜 전용이다.

높은 처리량과 낮은 레이턴시가 필요한 대규모 작업에 쓴다.

API를 쓰는 입장에서 중요한 것은 reasoning.effort 파라미터다.

none, low, medium, high, xhigh 다섯 단계로 추론 강도를 직접 조절할 수 있다.

단순한 질의응답에는 low, 복잡한 분석에는 high를 쓰는 식으로 비용과 품질을 직접 트레이드오프할 수 있다.

from openai import OpenAI

client = OpenAI()

# 추론 강도 조절
response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[{"role": "user", "content": "이 코드를 리팩토링해줘"}],
    reasoning_effort="high",   # none | low | medium | high | xhigh
)

3. 가장 눈에 띄는 변화: 토큰 효율성 47% 절감

GPT-5.4 발표에서 OpenAI가 가장 강조한 것 중 하나가 토큰 효율성이다.

Scale의 MCP Atlas 벤치마크(250개 태스크, 36개 MCP 서버 환경)에서 tool-search 설정을 켰을 때 정확도는 유지하면서 토큰 사용량은 47% 줄었다.

실제 API 가격을 보면 GPT-5.4는 GPT-5.2보다 비싸다.

모델         입력 (1M 토큰)   캐시 입력   출력 (1M 토큰)
GPT-5.2      $1.75          $0.175      $10.50
GPT-5.4      $2.50          $0.25       $15.00

입력 가격이 43% 올랐다.

하지만 OpenAI는 “같은 문제를 훨씬 적은 토큰으로 풀기 때문에 실제 비용은 낮아진다”고 주장한다.

tool-search는 모델이 모든 MCP 서버를 전부 탐색하는 대신 필요한 도구를 먼저 검색해서 관련 있는 것만 호출한다.

불필요한 Tool 호출로 인한 토큰 낭비를 줄이는 것이다.

이전 글에서 “비용이 드는 Tool은 Orchestrator 승인 필수”라는 원칙을 세웠는데 모델 자체가 그 판단을 내장하기 시작한 셈이다.

주의할 점이 있다. 입력 272K 토큰을 초과하는 세션은 입력 요금이 2배, 출력 요금이 1.5배 적용된다. 긴 컨텍스트를 쓸 계획이라면 비용 설계를 다시 해야 한다.

4. 컴퓨터 유즈 28pp 점프: 에이전트 시대의 신호

개인적으로 가장 주목한 수치는 OSWorld-Verified 벤치마크다.

GPT-5.2: 47.3% → GPT-5.4: 75.0%. 한 세대에서 28포인트 향상이다.

OSWorld는 실제 데스크톱 환경에서 복잡한 작업을 자율 수행하는 능력을 측정한다. 파일 탐색, 앱 조작, 웹 브라우저 제어 같은 것들이다. 75%라는 숫자는 “절반 이상의 복잡한 컴퓨터 작업을 사람 개입 없이 처리할 수 있다”는 의미다.

이게 에이전트 시스템 설계에 미치는 영향은 명확하다.

지금까지는 에이전트에게 “어떤 도구를 어떻게 쓸지” 세밀하게 지시해야 했다.

컴퓨터 유즈 능력이 높아질수록 에이전트의 자율 범위가 넓어지고 Orchestrator가 개입해야 하는 지점이 줄어든다. 덜 써도 더 많이 되는 방향으로 가고 있다.

SWE-Bench Pro에서 57.7%를 기록하면서도 레이턴시를 유지했다는 점도 실무에서 중요하다.

코딩 능력이 좋아져도 응답이 느리면 쓰기 어렵다.

5. 1M 토큰 컨텍스트: 실제로 무엇이 달라지는가

GPT-5.4의 컨텍스트 윈도우는 1,050,000 토큰이다. 최대 출력은 128,000 토큰.

1M 토큰이 어느 정도 크기인지 감을 잡으면 한국어 기준으로 약 75만~100만 글자다.

소설 서너 권 분량의 텍스트를 한 번에 컨텍스트에 넣을 수 있다.

코드베이스 전체를 컨텍스트에 넣고 리팩토링을 요청할 수 있다.

긴 계약서나 규정 문서를 통째로 넣고 특정 조항에 대해 물어볼 수 있다.

수백 개의 고객 인터뷰를 한 번에 넣고 패턴을 분석할 수 있다.

단 272K 토큰 초과 시 요금이 올라간다는 점은 반드시 설계에 반영해야 한다.

무심코 1M 토큰짜리 프롬프트를 여러 번 날리면 비용이 예상의 2배가 된다.

긴 컨텍스트가 필요한 작업과 그렇지 않은 작업을 라우팅으로 분리하는 게 좋다.

6. AI 엔지니어가 알아야 할 것들

GPT-5.4를 API에서 쓸 때 체크해야 할 것들이다.

모델 ID: gpt-5.4. 스냅샷 버전은 gpt-5.4-2026-03-05.

재현성이 필요한 프로덕션 환경에서는 스냅샷 버전을 명시하는 게 좋다.

지원 도구(Responses API): web search, file search, image generation, code interpreter, hosted shell, apply patch, skills, computer use, MCP, tool search. 전작 대비 tool search가 추가되었다.

파인튜닝: 지원하지 않는 대신 Distillation은 지원한다.

GPT-5.4의 출력으로 더 작은 모델을 증류(distill)하는 워크플로우는 가능하다.

지식 컷오프: 2025년 8월 31일. 그 이후 데이터는 web search 도구를 통해 보완해야 한다.

입출력 모달리티: 텍스트 입출력, 이미지 입력(출력 불가). 오디오와 비디오는 미지원.

7. Anthropic-펜타곤 갈등과 GPT-5.4 출시의 타이밍

GPT-5.4 출시 열흘 전, Anthropic에 불이 났다.

2026년 2월 말, 미국 국방부는 Anthropic을 “국가 안보 공급망 위험”으로 지정하고 계약을 파기했다.

이유는 Anthropic이 두 가지 요구를 거부했기 때문이다.

하나는 Claude를 자국민 대량 감시에 사용하는 것, 다른 하나는 완전 자율 무기 시스템에 Claude를 탑재하는 것이었다.

Anthropic은 “현재 프론티어 AI는 완전 자율 무기에 사용하기에 충분히 신뢰할 수 없다”고 공식 입장을 냈다.

OpenAI는 즉시 움직였다. 1억 달러 이상 규모의 국방부 계약을 체결했다.

당시 Sam Altman 본인도 나중에 이 결정을 “opportunistic and sloppy”라고 표현했다.

역설적인 시장 반응이 있었다. Anthropic에 대한 지지 여론이 확산되면서 Claude가 애플 앱스토어에서 ChatGPT를 제치고 1위에 올라섰다.

그리고 그 직후 GPT-5.4가 출시되었다. Fortune의 표현을 빌리면 “Anthropic의 기업 고객 텃밭을 직접 겨냥한” 타이밍이었다.

AI 엔지니어 입장에서 이 사건이 불편한 이유가 있다.

기술을 선택할 때 단순히 벤치마크만 보는 게 아니라, 그 기술을 만든 회사가 어떤 원칙으로 움직이는지가 실제 서비스 안정성과 연결되기 때문이다.

Anthropic이 계약을 잃으면서 지킨 원칙이 있다. OpenAI가 계약을 따내면서 양보한 무언가가 있다.

이 선택의 결과가 모델 스펙 이외의 방식으로 우리 시스템에 영향을 줄 수 있다는 점을 생각해둘 필요가 있다.

마무리하며

GPT-5.4를 한 줄로 요약하면 GPT-5.3-Codex의 코딩 능력을 추론 모델에 통합하고, 1M 토큰 컨텍스트와 토큰 효율성을 더한 버전이다.

벤치마크 수치는 인상적이며 특히 컴퓨터 유즈 28pp 향상은 에이전트 시스템 설계에 실질적인 의미가 있다.

동시에 이 모델이 출시된 맥락을 같이 읽어두는 게 좋다고 생각한다.

AI 산업은 지금 기술적 우월성 경쟁과 안전성 원칙 사이에서 각 회사가 서로 다른 선택을 하고 있다.

어떤 모델을 쓸지는 벤치마크로 결정할 수 있지만 어떤 회사의 인프라 위에 시스템을 올릴지는 그 맥락까지 고려해야 한다.

다음 글에서는 GPT-5.4와 Claude Opus 4.6을 직접 비교하면서 AI 엔지니어가 모델을 선택할 때 실제로 어떤 기준을 써야 하는지를 정리해보겠다.

벤치마크 너머의 실무 판단 기준이다.

참고 링크

GPT-5.4 발표 (OpenAI): https://openai.com/index/introducing-gpt-5-4/
GPT-5.4 API 스펙: https://developers.openai.com/api/docs/models/gpt-5.4
Anthropic-펜타곤 갈등 (Malwarebytes): https://www.malwarebytes.com/blog/news/2026/03/pentagon-ditches-anthropic-ai-over-security-risk-and-openai-takes-over
GPT-5.4 벤치마크 (officechai): https://officechai.com/ai/gpt-5-4-benchmarks/
Fortune: OpenAI targets Anthropic enterprise: https://fortune.com/2026/03/05/openai-new-model-gpt5-4-enterprise-agentic-anthropic/