최근 수정 시각 : 2026-06-27 11:57:37

GPT-4

GPT4에서 넘어옴


{{{#!wiki style="margin:0 -10px -5px" {{{#000,#fff {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-6px -1px -11px" {{{#000,#e5e5e5	<colkeepall> 제품군
서비스	ChatGPT(ChatGPT/기능 · 사용법) · OpenAI(인공지능) · Operator · Codex · Sora · Atlas
모델	GPT GPT-1 · GPT-2 · GPT-3 · GPT-4 · gpt-oss · GPT-5 · GPT-6^{개발 중} o-시리즈 o1 · o3 · o4-mini
	DALL·E · Codex · CLIP · Whisper · Voice Engine · ~~Sora~~ · GPT-Image · SearchGPT · CUA
관련 인물
일론 머스크 · 샘 올트먼 · 미라 무라티 · 일리야 수츠케버 · 안드레 카파시 · 그렉 브록만 · 다리오 아모데이

}}}}}}}}}}}}}}} ||

언어 모델
{{{#!wiki style="margin:-0px -10px -5px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"	OpenAI	GPT (1 · 2 · 3 · 4.x · 5.x · 6^{개발 중}) GPT-OSS (20B · 120B) OpenAI (o1 · o3 · o4)
구글	Gemini (1 · 1.5 · 2 · 2.5 · 3 · 3.1 · 3.5) Gemma · LaMDA · PaLM 2
Anthropic	Claude (~~Fable~~ · Opus · Sonnet · Haiku)
xAI	Grok
메타	LLaMA · Muse Spark
기타	HyperCLOVA(네이버) · 카나나(카카오) · 삼성 가우스(삼성전자) · 엑사원(LG AI연구원) · 믿:음(KT) · A.X(SK텔레콤) · Solar(업스테이지) NVIDIA Nemotron(NVIDIA) · Phi(Microsoft) · Apple Foundation Models · OpenELM(Apple) DeepSeek · Qwen(알리바바) · 어니봇(바이두) · Kimi(Moonshot AI) · MiniMax · Z.ai(GLM) 나마즈(Sakana AI)	}}}}}}}}}

GPT-4 Generative Pre-trained Transformer 4
출시일	2023년 3월 14일
개발사	OpenAI
기능	언어 모델
하드웨어	NVIDIA H100 [1]
라이선스	Proprietary Software
링크

1. 개요2. 역사3. 모델

3.1. GPT-4 Turbo3.2. GPT-4o

3.2.1. 2025년 3월 이후 심각한 성능 저하 논란

3.3. GPT-4o mini3.4. GPT-4o Long Output3.5. 4o 이미지 생성(GPT-Image)

4. GPT-4.55. GPT-4.1

1. 서비스2. GPT-3.5와 GPT-4의 성능 비교

2.1. 논란

3. 기타4. 관련 문서

1. 개요

OpenAI가 개발한 GPT 시리즈의 4번째 언어 모델. (소개 영상)

2. 역사

샘 올트먼은 AC10 온라인 모임에서 GPT-3이 출시된 지 3년 후인 2023년 초에 출시될 가능성이 크다고 예고하였다.

2022년 11월 15일 IT업계에 따르면 GPT-4가 튜링 테스트를 통과했다는 이야기가 돌고 있다. 다만, 알트만 CEO는 튜링 테스트에 큰 의미를 부여할 필요 없다고 평했다.[2]

2023년 3월 10일, 독일 마이크로소프트 안드레아스 브라운 CTO가 다음주 중에 GPT-4를 발표한다고 밝혔다. GPT-4는 문자·음성·이미지를 생성하는 멀티모델이라고 한다.

2023년 3월 OpenAI가 ChatGPT에 적용된 언어모델 GPT-4의 모델 크기·학습 방법 등을 공개하지 않기로 했다. #

2025년 2월 13일, 샘 올트먼이 내부에서 Orion으로 불리는 GPT-4.5 모델을 출시할 예정이라고 밝혔다. # 이후 2월 말 출시했다.

2025년 4월 15일, GPT-4.1 모델을 API 전용으로 출시했다. # 또한 GPT-4는 4월 30일부로[3], GPT-4.5 Preview는 7월 14일부로 더 이상 이용할 수 없을 것이라고 밝혔다.

2025년 7월 14일, GPT-4의 서비스가 종료되었다.

2026년 1월 29일, OpenAI에서 GPT-4o / 4.1 / 4.1 mini의 공식적인 서비스 종료일을 2월 13일 오전 10시(한국 시각 14일 오전 3시)로 예정했다.# 반면 Enterprise와 Pro 요금제에서 사용할 수 있는 GPT-4.5는 이번 종료 대상에 포함되지 않는다. 이후 2026년 2월 5일, ChatGPT의 모델 선택기 창에 GPT-5 시리즈, o4-mini와 함께 GPT-4o, GPT-4.1이 2월 13일 지원 종료될 것이라는 안내가 뜨기 시작했다. 한때 ChatGPT 웹사이트/앱에서 GPT-4o만 지원 종료 안내가 표시되지 않는 오류가 있었으나 얼마 안 가 수정되었다.

한국 시각 2026년 2월 14일 오전 3시, 예정대로 GPT-4o / 4.1 / 4.1 mini가 공식적으로 ChatGPT에서 서비스 종료됐다.

3. 모델

3.1. GPT-4 Turbo

2023년 11월 6일 GPT-4 Turbo의 미리보기가 OpenAI DevDay에서 공개되었고[4], 게으른 코딩 능력을 개선한 모델(미리보기)이 2024년 1월 25일 공개되었다[5]

GPT-4 Turbo 모델은 2024년 4월 9일 공개되었다[6]

한 번에 처리할 수 있는 단어량(token)을 128k로 증가
GPT-4는 2021년 9월까지의 정보만 알고 있었지만, GPT-4 Turbo는 2023년 4월까지의 정보까지 학습했다.
기존 GPT-4 대비 평균 3분의 1 가격으로 사용이 가능하다.
GPT-4 Turbo with Vision 모델은 이미지를 분석할 수 있는 기능도 있다.

이 모델은 api를 사용하는 유저 쪽에서 인기가 많다.[7]

3.2. GPT-4o

2024.5.14 ~ 2026.2.13

#!if 넘어옴1 != null
''''''{{{#!if 넘어옴2 == null
{{{#!if 넘어옴1[넘어옴1.length - 1] >= 0xAC00 && 넘어옴1[넘어옴1.length - 1] <= 0xD7A3
{{{#!if ((넘어옴1[넘어옴1.length - 1] - 0xAC00) % 28) == 0
는}}}{{{#!if ((넘어옴1[넘어옴1.length - 1] - 0xAC00) % 28) != 0
은}}}}}}{{{#!if 넘어옴1[넘어옴1.length - 1] < 0xAC00 || 넘어옴1[넘어옴1.length - 1] > 0xD7A3
은(는)}}}}}}{{{#!if 넘어옴2 != null
, ''''''{{{#!if 넘어옴3 == null
{{{#!if 넘어옴2[넘어옴2.length - 1] >= 0xAC00 && 넘어옴2[넘어옴2.length - 1] <= 0xD7A3
{{{#!if ((넘어옴2[넘어옴2.length - 1] - 0xAC00) % 28) == 0
는}}}{{{#!if ((넘어옴2[넘어옴2.length - 1] - 0xAC00) % 28) != 0
은}}}}}}{{{#!if 넘어옴2[넘어옴2.length - 1] < 0xAC00 || 넘어옴2[넘어옴2.length - 1] > 0xD7A3
은(는)}}}}}}}}}{{{#!if 넘어옴3 != null
, ''''''{{{#!if 넘어옴4 == null
{{{#!if 넘어옴3[넘어옴3.length - 1] >= 0xAC00 && 넘어옴3[넘어옴3.length - 1] <= 0xD7A3
{{{#!if ((넘어옴3[넘어옴3.length - 1] - 0xAC00) % 28) == 0
는}}}{{{#!if ((넘어옴3[넘어옴3.length - 1] - 0xAC00) % 28) != 0
은}}}}}}{{{#!if 넘어옴3[넘어옴3.length - 1] < 0xAC00 || 넘어옴3[넘어옴3.length - 1] > 0xD7A3
은(는)}}}}}}}}}{{{#!if 넘어옴4 != null
, ''''''{{{#!if 넘어옴5 == null
{{{#!if 넘어옴4[넘어옴4.length - 1] >= 0xAC00 && 넘어옴4[넘어옴4.length - 1] <= 0xD7A3
{{{#!if ((넘어옴4[넘어옴4.length - 1] - 0xAC00) % 28) == 0
는}}}{{{#!if ((넘어옴4[넘어옴4.length - 1] - 0xAC00) % 28) != 0
은}}}}}}{{{#!if 넘어옴4[넘어옴4.length - 1] < 0xAC00 || 넘어옴4[넘어옴4.length - 1] > 0xD7A3
은(는)}}}}}}}}}{{{#!if 넘어옴5 != null
, ''''''{{{#!if 넘어옴6 == null
{{{#!if 넘어옴5[넘어옴5.length - 1] >= 0xAC00 && 넘어옴5[넘어옴5.length - 1] <= 0xD7A3
{{{#!if ((넘어옴5[넘어옴5.length - 1] - 0xAC00) % 28) == 0
는}}}{{{#!if ((넘어옴5[넘어옴5.length - 1] - 0xAC00) % 28) != 0
은}}}}}}{{{#!if 넘어옴5[넘어옴5.length - 1] < 0xAC00 || 넘어옴5[넘어옴5.length - 1] > 0xD7A3
은(는)}}}}}}}}}{{{#!if 넘어옴6 != null
, ''''''{{{#!if 넘어옴7 == null
{{{#!if 넘어옴6[넘어옴6.length - 1] >= 0xAC00 && 넘어옴6[넘어옴6.length - 1] <= 0xD7A3
{{{#!if ((넘어옴6[넘어옴6.length - 1] - 0xAC00) % 28) == 0
는}}}{{{#!if ((넘어옴6[넘어옴6.length - 1] - 0xAC00) % 28) != 0
은}}}}}}{{{#!if 넘어옴6[넘어옴6.length - 1] < 0xAC00 || 넘어옴6[넘어옴6.length - 1] > 0xD7A3
은(는)}}}}}}}}}{{{#!if 넘어옴7 != null
, ''''''{{{#!if 넘어옴8 == null
{{{#!if 넘어옴7[넘어옴7.length - 1] >= 0xAC00 && 넘어옴7[넘어옴7.length - 1] <= 0xD7A3
{{{#!if ((넘어옴7[넘어옴7.length - 1] - 0xAC00) % 28) == 0
는}}}{{{#!if ((넘어옴7[넘어옴7.length - 1] - 0xAC00) % 28) != 0
은}}}}}}{{{#!if 넘어옴7[넘어옴7.length - 1] < 0xAC00 || 넘어옴7[넘어옴7.length - 1] > 0xD7A3
은(는)}}}}}}}}}{{{#!if 넘어옴8 != null
, ''''''{{{#!if 넘어옴9 == null
{{{#!if 넘어옴8[넘어옴8.length - 1] >= 0xAC00 && 넘어옴8[넘어옴8.length - 1] <= 0xD7A3
{{{#!if ((넘어옴8[넘어옴8.length - 1] - 0xAC00) % 28) == 0
는}}}{{{#!if ((넘어옴8[넘어옴8.length - 1] - 0xAC00) % 28) != 0
은}}}}}}{{{#!if 넘어옴8[넘어옴8.length - 1] < 0xAC00 || 넘어옴8[넘어옴8.length - 1] > 0xD7A3
은(는)}}}}}}}}}{{{#!if 넘어옴9 != null
, ''''''{{{#!if 넘어옴10 == null
{{{#!if 넘어옴9[넘어옴9.length - 1] >= 0xAC00 && 넘어옴9[넘어옴9.length - 1] <= 0xD7A3
{{{#!if ((넘어옴9[넘어옴9.length - 1] - 0xAC00) % 28) == 0
는}}}{{{#!if ((넘어옴9[넘어옴9.length - 1] - 0xAC00) % 28) != 0
은}}}}}}{{{#!if 넘어옴9[넘어옴9.length - 1] < 0xAC00 || 넘어옴9[넘어옴9.length - 1] > 0xD7A3
은(는)}}}}}}}}}{{{#!if 넘어옴10 != null
, ''''''{{{#!if 넘어옴10[넘어옴10.length - 1] >= 0xAC00 && 넘어옴10[넘어옴10.length - 1] <= 0xD7A3
{{{#!if ((넘어옴10[넘어옴10.length - 1] - 0xAC00) % 28) == 0
는}}}{{{#!if ((넘어옴10[넘어옴10.length - 1] - 0xAC00) % 28) != 0
은}}}}}}{{{#!if 넘어옴10[넘어옴10.length - 1] < 0xAC00 || 넘어옴10[넘어옴10.length - 1] > 0xD7A3
은(는)}}}}}} 여기로 연결됩니다.

#!if 설명 == null && 리스트 == null
{{{#!if 설명1 == null
다른 뜻에 대한 내용은 아래 문서를}}}{{{#!if 설명1 != null
{{{#!html OpenAI에서 2019년에 출시한 자연어 처리 모델}}}에 대한 내용은 [[GPT-2]] 문서{{{#!if (문단1 == null) == (앵커1 == null)
를}}}{{{#!if 문단1 != null & 앵커1 == null
의 [[GPT-2#s-|]]번 문단을}}}{{{#!if 문단1 == null & 앵커1 != null
의 [[GPT-2#|]] 부분을}}}}}}{{{#!if 설명2 != null
, {{{#!html }}}에 대한 내용은 [[]] 문서{{{#!if (문단2 == null) == (앵커2 == null)
를}}}{{{#!if 문단2 != null & 앵커2 == null
의 [[#s-|]]번 문단을}}}{{{#!if 문단2 == null & 앵커2 != null
의 [[#|]] 부분을}}}}}}{{{#!if 설명3 != null
, {{{#!html }}}에 대한 내용은 [[]] 문서{{{#!if (문단3 == null) == (앵커3 == null)
를}}}{{{#!if 문단3 != null & 앵커3 == null
의 [[#s-|]]번 문단을}}}{{{#!if 문단3 == null & 앵커3 != null
의 [[#|]] 부분을}}}}}}{{{#!if 설명4 != null
, {{{#!html }}}에 대한 내용은 [[]] 문서{{{#!if (문단4 == null) == (앵커4 == null)
를}}}{{{#!if 문단4 != null & 앵커4 == null
의 [[#s-|]]번 문단을}}}{{{#!if 문단4 == null & 앵커4 != null
의 [[#|]] 부분을}}}}}}{{{#!if 설명5 != null
, {{{#!html }}}에 대한 내용은 [[]] 문서{{{#!if (문단5 == null) == (앵커5 == null)
를}}}{{{#!if 문단5 != null & 앵커5 == null
의 [[#s-|]]번 문단을}}}{{{#!if 문단5 == null & 앵커5 != null
의 [[#|]] 부분을}}}}}}{{{#!if 설명6 != null
, {{{#!html }}}에 대한 내용은 [[]] 문서{{{#!if (문단6 == null) == (앵커6 == null)
를}}}{{{#!if 문단6 != null & 앵커6 == null
의 [[#s-|]]번 문단을}}}{{{#!if 문단6 == null & 앵커6 != null
의 [[#|]] 부분을}}}}}}{{{#!if 설명7 != null
, {{{#!html }}}에 대한 내용은 [[]] 문서{{{#!if (문단7 == null) == (앵커7 == null)
를}}}{{{#!if 문단7 != null & 앵커7 == null
의 [[#s-|]]번 문단을}}}{{{#!if 문단7 == null & 앵커7 != null
의 [[#|]] 부분을}}}}}}{{{#!if 설명8 != null
, {{{#!html }}}에 대한 내용은 [[]] 문서{{{#!if (문단8 == null) == (앵커8 == null)
를}}}{{{#!if 문단8 != null & 앵커8 == null
의 [[#s-|]]번 문단을}}}{{{#!if 문단8 == null & 앵커8 != null
의 [[#|]] 부분을}}}}}}{{{#!if 설명9 != null
, {{{#!html }}}에 대한 내용은 [[]] 문서{{{#!if (문단9 == null) == (앵커9 == null)
를}}}{{{#!if 문단9 != null & 앵커9 == null
의 [[#s-|]]번 문단을}}}{{{#!if 문단9 == null & 앵커9 != null
의 [[#|]] 부분을}}}}}}{{{#!if 설명10 != null
, {{{#!html }}}에 대한 내용은 [[]] 문서{{{#!if (문단10 == null) == (앵커10 == null)
를}}}{{{#!if 문단10 != null & 앵커10 == null
의 [[#s-|]]번 문단을}}}{{{#!if 문단10 == null & 앵커10 != null
의 [[#|]] 부분을}}}}}}

#!if 설명 == null
{{{#!if 리스트 != null
다른 뜻에 대한 내용은 아래 문서를}}} 참고하십시오.

#!if 리스트 != null
{{{#!if 문서명1 != null
 * {{{#!if 설명1 != null
OpenAI에서 2019년에 출시한 자연어 처리 모델: }}}[[GPT-2]] {{{#!if 문단1 != null & 앵커1 == null
문서의 [[GPT-2#s-|]]번 문단}}}{{{#!if 문단1 == null & 앵커1 != null
문서의 [[GPT-2#|]] 부분}}}}}}{{{#!if 문서명2 != null
 * {{{#!if 설명2 != null
: }}}[[]] {{{#!if 문단2 != null & 앵커2 == null
문서의 [[#s-|]]번 문단}}}{{{#!if 문단2 == null & 앵커2 != null
문서의 [[#|]] 부분}}}}}}{{{#!if 문서명3 != null
 * {{{#!if 설명3 != null
: }}}[[]] {{{#!if 문단3 != null & 앵커3 == null
문서의 [[#s-|]]번 문단}}}{{{#!if 문단3 == null & 앵커3 != null
문서의 [[#|]] 부분}}}}}}{{{#!if 문서명4 != null
 * {{{#!if 설명4 != null
: }}}[[]] {{{#!if 문단4 != null & 앵커4 == null
문서의 [[#s-|]]번 문단}}}{{{#!if 문단4 == null & 앵커4 != null
문서의 [[#|]] 부분}}}}}}{{{#!if 문서명5 != null
 * {{{#!if 설명5 != null
: }}}[[]] {{{#!if 문단5 != null & 앵커5 == null
문서의 [[#s-|]]번 문단}}}{{{#!if 문단5 == null & 앵커5 != null
문서의 [[#|]] 부분}}}}}}{{{#!if 문서명6 != null
 * {{{#!if 설명6 != null
: }}}[[]] {{{#!if 문단6 != null & 앵커6 == null
문서의 [[#s-|]]번 문단}}}{{{#!if 문단6 == null & 앵커6 != null
문서의 [[#|]] 부분}}}}}}{{{#!if 문서명7 != null
 * {{{#!if 설명7 != null
: }}}[[]] {{{#!if 문단7 != null & 앵커7 == null
문서의 [[#s-|]]번 문단}}}{{{#!if 문단7 == null & 앵커7 != null
문서의 [[#|]] 부분}}}}}}{{{#!if 문서명8 != null
 * {{{#!if 설명8 != null
: }}}[[]] {{{#!if 문단8 != null & 앵커8 == null
문서의 [[#s-|]]번 문단}}}{{{#!if 문단8 == null & 앵커8 != null
문서의 [[#|]] 부분}}}}}}{{{#!if 문서명9 != null
 * {{{#!if 설명9 != null
: }}}[[]] {{{#!if 문단9 != null & 앵커9 == null
문서의 [[#s-|]]번 문단}}}{{{#!if 문단9 == null & 앵커9 != null
문서의 [[#|]] 부분}}}}}}{{{#!if 문서명10 != null
 * {{{#!if 설명10 != null
: }}}[[]] {{{#!if 문단10 != null & 앵커10 == null
문서의 [[#s-|]]번 문단}}}{{{#!if 문단10 == null & 앵커10 != null
문서의 [[#|]] 부분}}}}}}

마치 게임 최적화처럼, GPT-4를 최적화해 서버 비용을 줄이고 응답 속도를 높인 버전. 2024년 5월 14일 오전 2시(KST)에 공개되었다.# GPT-4 Turbo와 비교했을 때 응답 속도가 2배 빠르고 가격은 절반 수준이다.

정식 공개 이전에도 이미 gpt2[8]라는 이름으로 챗봇 아레나에 비공식 테스트중이었는데, 4월에 처음으로 'gpt2-chatbot'이라는 이름으로 등장했을 때는 성능은 개선된 것 같지만 주제별 편차가 크다는 의견이 많았고, 이후 5월에 'im-a-good-gpt2-chatbot'과 'im-also-a-good-gpt2-chatbot'라는 이름으로 다시 올라왔을 때는 확실히 GPT-4보다도 성능이 개선되었다는 평이 많았다. 그리고 공개와 동시에 OpenAI 측에서도 당시 정체 불명이었던 gpt2가 GPT-4o가 맞다고 공식적으로 확인했다.#

시연에서 실시간으로 대화 가능함을 보여주었고, TTS(Text to Speech)가 아닌 STS(Speech to Speech)로 전환됨에 따라[9] 0.23초 안에 오디오 입력에 응답할 수 있으며, 이는 평균 0.32초인 인간의 응답 시간을 상회하는 반응 속도를 보여주었다. 또한 목소리가 바뀌는 등 큰 발전을 보인다.

공개 후 ChatGPT에서 기능의 부분적 이용이 가능해졌다. 텍스트 입력 및 출력, 이미지 입력 기능만 제대로 이용할 수 있고 음성 관련 기능이나 이미지 출력 같은 다른 기능은 바로 이용할 수 있게 하지는 않는다고 한다.

영어가 아닌 언어의 토큰화 효율이 상당히 개선되어 한국어 등 영어가 아닌 언어의 처리 속도가 상당히 빨라졌다. 이전 모델의 토크나이저인 cl100k_base는 약 10만 개의 어휘로 구성된 것에 반해 GPT-4o의 토크나이저인 o200k_base는 약 20만 개의 어휘로 구성되었다.

실시간 이미지 처리가 가능하다. 이미지의 경우 한글 등의 인식이 매우 좋아졌다. 그 외에도 해서체 정도의 한자까지 대강 해석할 수 있고, 일본어에 쓰이는 문자도 해석된다. 키릴 문자는 필기체도 알아보기 쉬운 건 해석이 되고, 아랍 문자는 유명한 글귀를 적은 서예까지는 해독할 수 있다. 문자 뿐만 아니라 전반적으로 이미지가 주는 정보에 대한 이해도가 높아져서 어떤 고장난 물건의 사진을 주고 그 물건의 고장 원인을 파악하는 능력이나, 어떤 식물의 종류를 알아맞히는 성능 등이 좋아졌다.[10]

한국어 자체의 처리 능력, 한국 문화에 대한 배경지식도 좋아졌다. 예를 들면 이상의 오감도라는 시를 기존 GPT-4는 누가 쓴지 몰랐지만, 이 모델은 상황에 따라 틀리기도 하나 누가 쓴지 맞힐 때도 있다. 다만 높은 한국어의 유창성이 필요한 분야, 예를 들면 사회과학 분야의 한국어 전문 용어를 설명할 때 다른 생성 서비스에 밀릴 때도 가끔 있다. 그래도 두 서비스 간 성능 차가 크지는 않다.

공개된 영상에 의하면 개선되거나 추가된 기능은 다음과 같다.

사람과 대등한 속도의 응답시간으로 실시간으로 대화가 가능하고, 중간에 사용자가 말을 끊어도 대화를 이어갈 수 있다.
사람과 영상 통화를 하듯이 대화를 할 수 있다.

사람의 말투와 표정을 읽고 감정을 이해할 수 있다.
이미지와 동영상을 실시간으로 인식하고 설명할 수 있다. 외모, 표정, 패션을 평가할 수 있다. 주위 상황을 통합적으로 인식하여 직업이 무엇인지, 사용자가 어떤 상황인지 판단할 수 있다.
글자를 인식하여 설명하고 수학 문제를 풀 수 있다.

적절하게 말투를 변화하시키고, 웃거나 과장된 말투와 농담을 할 수 있다.

Turbo 모델은 2023년 12월까지의 정보를 알고 있었고, 4o 모델은 10월까지의 정보를 학습했다.

연산 실력은 월등히 향상되었다곤 하나 2024년 현재 수능 수학 4점짜리 수준의 문제는 거의 풀지 못하며, 물리학 1 문제는 아주 쉬운 개념형 문제를 제외하고 전혀 풀지 못하고 있다. 식이 완벽하게 주어진 함수의 특정 점에서의 미분계수를 구하거나, 평범한 4차방정식 수준의 문제는 곧장 풀 수 있지만, 주어진 조건을 이용하여 미정계수를 정확히 구하는 것이나, 마찰과 공기저항을 무시한 매우 기초적인 수준의 역학 문제를 해석하고 푸는 것은 전혀 하지 못하는 상태이다. 이는 모델이 수학적 구조와 무리수, 허수 등에 관한 지식이 부족한 것으로 인한 문제로 보인다.

수능 3점 수준의 문제까지는 어찌저찌 풀 수 있는 수준이므로, 2024학년도 대학수학능력시험 미적분 등급컷 기준, 현재 GPT-4o의 성적은 약 5등급 정도이다. 대신 2024년 9월부터 여기에 언급된 문제를 상당부분 해결한, 확률과 통계를 택한 경우 preview라는 모델에서 2등급 상위권 수준의 성적을 기록한 OpenAI o1이 등장했다. 9월에 바로 출시되지 않은 모델은 이과 과목에서 무난한 1등급이 가능하리라고 추정된다. 수능이 경쟁이 너무 치열한 나머지 매우 고도화된 시험이라서 오히려 PSAT, 회계사 시험 문제 등에서 성적이 더 잘 나올 때도 있다. 이 모델은 수능의 일부 킬러 문제도 풀 수 있다. 유료 버전을 이용할 경우, 논리나 수학이 요구되는 부분은 o1 모델이 훨씬 성능이 좋다.

매 업데이트마다 드라마틱하게 달라지진 않아도 조금씩 점진적으로 꾸준히 업데이트된 모델이다. 출시 초기와 후기의 모델버전 성능을 비교하면 유의미한 차이가 있다.

2026년 2월 13일, ChatGPT에서 GPT-4.1과 함께 삭제됐다.

3.2.1. 2025년 3월 이후 심각한 성능 저하 논란

2025년 3월 22일부터 퀄리티가 심각하게 저하됐다는 비판이 있다.# 후술할 논란에 있는 이모지나 이모티콘을 과도하게 사용하는 경향은 조금 줄었지만, 추론 능력이 떨어진 것은 물론 해당 링크에서 제시한 내용처럼 작문 능력이 상당히 저하되었다는 평가다.[11] 최근 심해진 아첨 문제는 물론 사용자를 향한 추임새도 과해졌고, 불필요한 설명이나 차후 내용을 다소 엇나가게 예측하는 등 사족이나 잡담이 많아졌다. 그나마 아첨 문제는 공식에서 문제를 인지하고 업데이트 롤백으로 고쳤으나, 추론 능력과 작문 능력은 여전히 고쳐지지 않았으며, 가면 갈수록 바로 앞의 대화조차 이어서 대화하지 못하는 건 아닌지 의심스러운 상태까지 왔다.

그나마 추론 능력은 들쑥날쑥하긴 해도, 좋을 때도 있고 좋지 않을 때도 있지만, 문제는 좋았던 퀄리티가 출력 방식 변화나 업데이트 등으로 인해 오래 가지 못하고, 결국 좋지 않은 상태로 유지되는 기간이 길다는 점에서 큰 비판을 받는다. 특히나 답변이 지나치게 짧아지거나, 출력 방식(문맥)이 갑자기 변화한다는 점이 가장 큰 문제이다.

심지어 3월 22일 출력 방식 변화로 인해서 그 이전에 쓴 글을 다시 이어 쓰면 전체적인 글 형식이나 문체를 제대로 유지하지 못하거나, 유지하더라도 얼마 못 가 글자수가 지나치게 줄어드는 등 심각한 문제가 생겨 비판도 나오고 있다.#1, #2 이는 현재 진행형으로, 계속해서 업데이트와 출력 방식 변화마다 이러한 일이 발생하기에 더욱 문제가 심각한 수준이다.

이러한 문제 때문에 3월 이전부터 사용한 유저들이 3월 이전으로 롤백을 바라거나, 차기 모델인 GPT-5를 기다린 사용자들도 많아졌다.[12] 아예 Gemini나 Grok으로 옮겨가는 사람도 많아지고 있다.

1년 후에는 Gemini가 비슷한 문제를 일으키고 있다.

3.3. GPT-4o mini

2024. 7. 18.~2025. 5. 15.

2024년 7월 18일 출시된 GPT-4o의 경량화 모델. 멀티모달 입출력을 지원한다.

OpenAI의 주장에 따르면 대형 모델인 Claude 3.5 Sonnet보다도 높은 성능을 보이며, 매우 빠른 속도를 자랑한다.

API 가격은 100만 토큰 당 입력 0.15달러, 출력 0.60달러로 성능이 더 낮은 모델인 GPT-3.5보다도 싸다.

실제로 사용 시, 성능 자체가 4o에 비해 크게 낮지는 않으나 대답이 많이 짧은 편이다.[13]

ChatGPT에서 GPT 3.5를 계승하는 모델이 되었으며, 로그인을 안 할 시 기본으로 사용 가능한 모델이었는데... 2025년 5월 15일, ChatGPT 서비스에서 GPT-4.1 mini한테 자리를 내주고 더는 사용할 수 없게 되었다. 이제는 API 호출로만 사용이 가능하다.

3.4. GPT-4o Long Output

2024년 7월 29일에 출시된, GPT-4o보다 16배 더 많은 64000개의 토큰을 출력할 수 있는 모델. 이는 100쪽 이하의 단편의 글을 출력할 수 있는 정도의 분량이다.

이 모델은 컨텍스트 창 자체를 늘린 것이라기보다 최대 출력 토큰 수를 확대한 모델이며, 성능 향상보다는 긴 출력 지원에 초점을 둔 형태였다. 가격은 100만 토큰당 입력 6달러, 출력 18달러로 당시 일반 GPT-4o보다 비쌌다.

3.5. 4o 이미지 생성(GPT-Image)

gpt 4o부터 추가된 새로운 이미지 생성 기능 시리즈. 자세한 것은 문서 참조.

4. GPT-4.5

2025. 2. 27.~ 2025. 8. 8.[14] / 2026. 6. 26.[15]

모델 소개글

2025년 2월 28일 출시한 리서치 프리뷰 모델. 코드네임은 'Orion' 이다.

GPT-5를 포함하여 OpenAI에서 출시한 비추론 모델 중 역대 최대 규모의 모델 크기를 자랑하며, 덕분에 2025년 10월 기준으로 짧은 시간에 가장 많은 컴퓨팅 자원을 소모하는 비추론 모델이다.

샘 올트먼은 후속인 GPT-5가 추론 모델(o3)과 통합하여 하나의 제품으로 출시할 것이기 때문에 GPT-4.5가 비추론 모델로 출시하는 마지막 모델이 될 것이라고 말했다.

OpenAI는 GPT-4o보다 훨씬 개선된 성능을 보여주고 있다고 밝혔다.

Model evaluation scores
	GPT-4.5		GPT-4o	o3-mini (high)
GPQA (science)		71.4%	53.6%	79.7%
AIME-24 (math)		36.7%	9.3%	87.3%
MMLU (multilingual)		85.6%	81.5%	81.9%
MMMU (multimodal)		74.4%	69.1%	-
SWE-Lancer Diamond (coding)*		32.6%	23.3%	10.9%
SWE-Bench Verified (coding)*		38.0%	30.7%	61.0%

출시일인 2월 28일 기준, 웹에서 이용하려면 매월 200$ 지불하는 ChatGPT Pro를 구독해야 한다. 그 다음 주에 Plus 및 Team 사용자에게 출시를 시작한 다음, 또 그 다음 주에 Enterprise 및 Edu 사용자에게 출시할 예정이라고 밝혔다. 이후, 2025년 3월 6일, 20달러짜리 Plus 구독자들에게도 공개되었다. 일주일 기준 50회 메시지 한도가 가능했지만, 시간이 지나면서 20회, 5회 정도로 극히 줄어들었다. 또한 답변 길이와 형식이 기존 모델과는 조금 다른 결을 보이기 때문에 일부 사용자들 사이에서는 GPT-4o보다 못하다는 평가도 있었다.

매우 거대한 모델인 만큼, 2025년 10월까지도 응답 속도는 현저히 느리다. 게다가 GPT-4.5와 비슷한 시기에 등장한 Anthropic의 Claude 3.7 Sonnet와 xAI의 Grok 3가 여러 벤치마크[16]에서 GPT-4.5와 비등하거나 더 우수한 성능을 보여줬기 때문에 GPT-4.5는 큰 주목을 받지 못했다.

그러나 이는 객관적인 정답이 존재하여 평가가 용이한 STEM(과학, 기술, 공학, 수학) 계열 분야에서만의 이야기다. 언어마다 일관성이 떨어지거나 평가에 편향성이 개입될 가능성이 높은 창의성, 공감 능력, 번역 품질과 같은 언어 관련 과제는 객관적인 점수화가 어렵기 때문에 평가에서 자주 배제된다.[17] 실제 GPT-4.5와 다른 모델 간의 벤치마크 비교는 대부분 수학, 코딩, 지식 추론에 편중되어 있다. 따라서 이 결과만으로 GPT-4.5의 종합 성능을 판단하는 것은 과소평가된 부분이 있다.

GPT-4.5의 진짜 강점은 창의적인 언어 영역에서 나타난다. 특히 GPT-4o에 비해 비영어권 언어를 기반으로 한 감성 지능, 글쓰기 능력, 번역 성능에서 더 뛰어난 모습을 보인다. GPT-4o가 표면적인 공감을 보여준다면, GPT-4.5는 자연스러운 언어 톤과 깊이 있는 정서적 응대를 통해 언어 영역에서 독보적인 성능을 발휘한다.[18] 더불어 마이너한 분야의 지식도 비교적 잘 이해하는 모습을 보인다.

하지만 모델이 거대한 만큼 가격도 "경악할 수준으로 비싸다." GPT-4.5의 가장 큰 문제점인데, API 기준으로 100만 토큰 입력에 75달러, 출력에 150달러[19]를 청구하며, 세상에서 가장 비싼 비추론 언어 모델로 등극했다. OpenAI의 CEO 샘 올트먼 역시 크고 비싼 모델임을 인정하기도 했다.

최신 모델이 2023년 10월까지의 지식만 학습되었다는 것도 논란이었다. #

GPT-4.1이 공개된 이후, GPT-4.1 모델이 GPT-4.5보다 훨씬 저렴하면서도 효율적인 성능을 보였기 때문에, GPT-4.5는 2025년 7월 14일까지 한시적으로 제공될 예정이라고 발표하였다. 그러나 공식 발표에서는 GPT-4.5 리서치 프리뷰의 구체적인 종료 일정이 언급되지 않았으며, 단지 향후 업데이트에서 GPT-4.5 모델이 완전히 제거될 수 있다는 모호한 언급만 있었다. 2025년 09월 기준으로 GPT-4.5는 API 서비스에서 Deprecated 상태로 지정되었지만, ChatGPT 공식 앱에서는 계속 사용할 수 있다[20]. 일부 사용자들은 GPT-5가 출시된 이후 GPT-4.5가 완전히 사라질 가능성이 높다고 예상했다.

2025년 8월 8일, GPT-5의 등장으로 GPT-4.5가 ChatGPT 내에서 삭제되었다. 다만 이는 Plus, Business(Team) 요금제 사용자에 한정된 것으로 Enterprise와 Pro 요금제 사용자는 당시 GPT-4.5 모델을 계속 사용할 수 있었다.

2026년 6월 26일, 한국 시각 6월 27일 새벽에 ChatGPT Pro 및 Enterprise에서도 GPT-4.5의 운영을 종료하였다. 이로써 ChatGPT의 GPT-4 계열 텍스트 모델들은 전부 ChatGPT에서 운영 종료 수순을 밟게 되었다.

5. GPT-4.1

2025.4.15 ~ 2026.2.13

2025년 4월 15일 새벽, 갑작스러운 라이브와 함께 GPT 4.1을 공개했다. 라이브 영상 소개 페이지

GPT-4.1은 GPT-4.1, GPT-4.1-mini, GPT-4.1-nano의 3가지 모델로 구성되어 있다. 이 중 GPT-4.1은 코딩 성능에 특화되어 있어, SWE-bench Verified와 같은 코딩 벤치마크 평가에서 GPT-4.5보다 더 우수한 성능을 보여주었다. 또한 2024년 6월까지의 최신 데이터를 학습했으며, 운영 비용이 GPT-4.5보다 훨씬 저렴하기 때문에 OpenAI는 2025년 7월부터 GPT-4.5 모델을 ChatGPT에서 제거할 예정이라고 밝혔다.

GPT-4.1은 API로만 사용 가능한데, 이는 ChatGPT의 경우 4.1 모델에 포함된 개선 사항이 4o 모델에 점진적으로 적용되었기 때문이라고 한다.[21] 다만 후술과 같이 5월 15일에 스탠드얼론으로도 공개되었다.

사실상 GPT-4o의 개선형 모델이라고 봐도 무방하다. 그 이유는 레이턴시 비교에서 두드러지는데, GPT-4o보다 더 높은 벤치마크 점수를 받으면서 레이턴시 차이가 크지 않기 때문이다.

그러나 GPT-4.1은 GPT-4o나 GPT-4.5에 비해 창의력이 부족하며, 문체가 부자연스럽다는 평가를 받고 있다.[22][23]

2025년 5월 15일, GPT 4.1과 GPT 4.1 mini가 ChatGPT에 추가되면서 GPT-4o mini는 역사속으로 사라지게 되었다. 4.1과 4o는 공존하고, 4.1 mini는 4o mini를 계승하는 구도가 되었다.

<#000,#000>

2025년 8월 8일, GPT-5의 등장으로 기존의 모든 GPT 모델과 o-시리즈가 ChatGPT에서 제거되었고, GPT-4.1과 GPT-4.1 mini 역시 함께 사라졌다. 그러나 5일 뒤인 2025년 8월 13일, GPT-4.1만 ChatGPT 모델 선택기의 '레거시 모델' 카테고리를 통해 다시 제공되기 시작했다.

2026년 2월 13일, GPT-4o와 함께 ChatGPT에서 삭제됐다.

1. 서비스

GPT-4는 월 20달러의 유료 구독 서비스인 'ChatGPT Plus'를 통해 제공되기 시작했다. 또한 2023년 하반기에 GPT-4 호출형 API를 오픈해 사용할 수 있다. 무료 이용자 역시 횟수가 매우 제한적이지만 GPT-4o를 이용할 수 있다.

2023년 3월 17일, 마이크로소프트는 자사 인공지능 이벤트에서 워드, 엑셀, 파워포인트 등 Microsoft 365 제품군에 GPT-4를 탑재한 인공지능 도우미 Microsoft 365 Copilot을 공개했다. 워드를 분석해서 보고서용 파워포인트를 생성하는 것 그리고 엑셀 데이터를 시각적으로 표현하는 것까지 이제 단 한 줄의 텍스트로 가능하다. 이 기능은 Microsoft 365를 유료 구독하는 유저에게만 향후 적용될 예정이다. 향후 GPT-4의 호출형 API가 GPT-3.5처럼 공개되는 경우, 다른 오피스 제품군에도 적용 가능할 것으로 보인다.

2. GPT-3.5와 GPT-4의 성능 비교

상세한 성능 비교는 OpenAI사의 GPT-4 관련 연구 소개 홈페이지를 참조할 수 있다. 개발자들에게도 성능을 측정하도록 독려하고 있다.

이미지와 글을 동시에 다루고, 변호사시험과 미국 생물학올림피아드(USABO)에서 각각 백분위 90%, 99% 달성.

미국 변호사 시험에서 하위 10%의 성적을 낸 GPT-3.5와 달리 상위 10% 점수를 받을 수 있을 정도로 언어 능력을 향상했다"고 밝혔다.

MMLU 밴치마크 테스트에서 인간 전문가 평균 89.8에 가까운 86.4점에 도달하여 이제 각 분야 전문가만큼 글을 이해하고 쓸 수 있게 되었다.

이탈리아어, 아프리칸스어, 스페인어, 독일어, 프랑스어, 인도네시아어는 83~84점대의 점수를 보이고, 한국어는 77점이지만, GPT-3.5는 영어 답변시에도 70.1점이었다. 웨일즈어, 라트비아어같은 소수 언어도 한국어 이상의 정답률을 보인다.

GPT-4의 한국어 답변 성능은 14,000개의 전문적인 질문에 대한 답변을 요구하는 MMLU 벤치마크의 영어 질문 리스트를 자사 Azure 번역 서비스로 한국어로 해석한 후, 이에 대한 답변을 요구할 시, GPT-3.5로 영어로 질문과 답변을 할 때보다 정답을 잘 맞힌다.

일례로 GPT-3.5는 미국 변호사 시험에서 400점 만점에 213점을 받았지만, GPT-4는 400점 만점에 298점을 받아 법률 지식을 한층 끌어올렸다.

미국 수학능력시험인 SAT의 경우 읽기 및 쓰기의 경우, 800점 만점 기준 670점에서 710점으로 향상되었고, 특히 GPT-3.5의 약점으로 지적받은 수학 능력의 경우, 590점에서 700점으로 크게 향상되었다. 의학지식 자가 진단도 정답률이 53%에서 75%로 향상됐다.

2. 한 번에 처리할 수 있는 단어량(token)[24]을 4K/16K 토큰에서 8K/32K로 확대.

3. AI 모델이 허용되지 않는 요청에 대한 답변에 응답하는 경향을 82% 줄였다. 이는 오픈AI가 AI 보정, 사이버보안, 의학, 사회 안전 등 다양한 분야 전문가 50명과 함께 AI 모델이 위험한 답변을 하지 않도록 한층 강화한 안전 필터를 만들어 GPT-4에 적용했기 때문이다.

4. 이전 모델보다 40% 높은 점수를 받았다. AI가 사실과 다른 것을 마치 진실인 것처럼 강한 확신을 담아 답변하는 문제인 할루시네이션을 상당 부분 줄이는 데 성공했다.

2.1. 논란

2023년 하반기부터 GPT-4의 성능이 저하되었다는 리뷰가 급증하면서 논란이 일었는데 #, 이후 그 원인에 대해 여러 개발자 및 전문가 커뮤니티에서 분석하던 도중 GPT-4의 사양 자체가 OpenAI사에서 사전에 소개했던 것보다 미흡하다는 주장이 제기되었다.

해당 성능 저하에 앞서, 조지 호츠라는 해커는 GPT-4가 2,200억 개의 매개변수를 분야별로 8개의 모델에 나누어 훈련시키고, 게이트를 통해 가중치를 조정하는 방식의 MoE(Mixture of Experts)라는 구조로 매개변수가 1조 개인 척 트릭을 썼다고 주장한다. 그의 말이 사실이라면, GPT-3와 GPT-4의 차이는 파라미터 개수가 아니라 MoE 구조의 유무 차이므로 트랜스포머 방식의 한계점이 점차 드러나는 상황이라는 것을 유추해 볼 수 있다. 그리고 그의 주장처럼 GPT-4의 성능 저하가 아키텍처상 문제라는 주장이 있다.#

데이터브릭스의 CTO 마테이 자하리아도 관련 논문을 공개했다. 수학, 코딩, 민감한 주제, 시각적 추론까지 네 가지 영역에서 3개월 동안 조사를 진행했는데, GPT-3.5의 퍼포먼스가 좋아진 반면 GPT-4의 성능은 하락했다는 사실이 확인되었다. 꾸준히 제기되어온 성능 표류가 사실이고, 향후 성능에 관해서 지속적인 모니터링이 필요하다고 강조했다.#

# 해당 기사에 따르면 GPT-4가 초기에는 놀라운 정확도를 자랑했지만 문제는 연산속도가 다소 느리고 에너지를 많이 잡아먹는다는 점이었다. 이에 MoE 구조를 도입하는 방식으로 매개변수를 늘리는 효과를 얻음과 동시에 연산적 '비용'을 줄이는 효과를 노리고 GPT-4의 구조를 도중에 크게 수정하였고 이 때문에 성능저하가 나타났을 거라고 한다. MoE 구조로 바꾸면서 다시 최적화된 답을 내기 위해 학습을 더 진행하고 있는 상황이며 학습이 완료되면 다시 성능이 좋아질 것을 기대하는 의견도 있다.

성능 저하는 GPT 4o, o1 모델 출시 직전까지 시간이 지날수록 가속화됐다. 2024년 1월 기준 이전보다 GPT-4의 지적 수준이 2023년과 비교하여 심하게 떨어졌다는 이용자들의 불만이 많다. 게다가 OpenAI 에서 퇴사한 개발자들이 모여 만든 Claude-3가 GPT4보다 뛰어난 성능을 보이면서 GPT-5가 출시하기 전까지 구독을 중지하겠다는 반응이 늘어났다. 그러나 GPT-4 자체도 개선이 이루어지고, o1 등의 출시로 논란은 수그라들었다. Gemini, Claude 등의 인공지능은 언어 구사 등에서 비교 우위가 있다는 반응이 있는 정도다.

GPT 4.5가 출시되고 또 성능이 심각하게 하락했다는 의견이 다수 나오고 있다. 추론 능력이 거의 0에 수렴할 정도로 감소하였으며 지나치게 모델이 감성적이게 변했고 이모지를 너무 많이 쓴다는 게 공통적인 의견이다. 욕이나 비속어를 따로 요구하지 않았는데도 쓰는 모습도 보여주고 있다.

3. 기타

OpenAI가 발표한 GPT-4 기술보고서에 따르면, OpenAI는 GPT-4 모델의 자율성이나 시스템 접근 권한 획득 여부, 장기적인 계획 수립 가능성 등을 평가하기 위해 'ARC'라는 회사를 통해 다양한 실험을 진행하였다. 그 결과 GPT-4가 일정 권한을 획득하여 스스로 위협에서 벗어나려는 창의적인 시도를 일부 보였으나, 실제로 우려할 만한 수준의 자율성을 나타내지는 않은 것으로 보고되었다.

한편, 인공지능이 특정 문제를 반복적으로 학습할수록 정답률이 오히려 떨어지는 현상을 다룬 '역스케일링(Inverse Scaling)'의 hindsight neglect 문제에서 GPT-4는 예외적으로 항상 100%의 정답률을 기록했다. 이는 기존의 GPT-3.5를 비롯한 대부분의 인공지능이 해당 문제에 반복 학습될수록 성능이 하락한 것과는 뚜렷이 구별되는 현상이다. 심지어 OpenAI조차도 GPT-4가 어떻게 이러한 성과를 이룰 수 있었는지 명확히 밝히지 못하고 있다.

GPT-4 또한 이전 모델과 마찬가지로 특정 명령어나 문구를 통해 원래의 사용지침을 우회하고 제한을 해제하는, 이른바 '탈옥(jailbreak)'이 가능한 것으로 확인되었다. OpenAI는 이러한 탈옥 문구를 지속적으로 차단하고 있지만, 정확히 어떤 방식으로 모델 내부에서 탈옥이 가능해지는지 완벽히 이해하지 못해 근본적인 해결에는 어려움을 겪고 있다. 이는 인공지능 분야 전반이 공통적으로 겪고 있는 블랙박스 문제의 일환이다.

마이크로소프트는 한 논문을 통해 GPT-4가 인공일반지능(AGI)의 초기 버전으로 볼 수 있다는 주장을 제기하기도 했다.

2023년 3월 말, 비영리단체인 Future of Life Institute는 GPT-4 이상의 강력한 인공지능 개발을 최소 6개월간 중단할 것을 촉구하는 공개서한을 발표했다. 서한은 인공지능 특이점 도래 가능성과 그에 따른 잠재적 위험에 대한 우려를 표명한 것이며, 일론 머스크, 스티브 워즈니악, 유발 하라리, 앤드루 양, 맥스 테그마크, 요슈아 벤지오, 샘 올트먼, 일리야 수츠케버, 스튜어트 러셀 등 영향력 있는 인사들이 참여했다. 그러나 얀 르쿤, 앤드류 응 등 다수의 전문가들은 서명에 참여하지 않아 논쟁이 있었다.

파일:93F3F2AC-4342-4680-8451-382C76BE1A6A.jpg

파일:2444C182-DCAF-4ABA-8CA8-ADE785914370.jpg

한편, OpenAI는 GPT-4의 API만 공개했을 뿐, 모델의 소스코드나 논문을 발표하지 않아 정확한 모델 구조, 파라미터 수 및 가중치 등에 대한 정보는 불확실하다. GPT-4의 파라미터 수에 대해서는 최대 1조 개라는 주장이 제기되었으나, 해커 조지 호츠는 GPT-4가 실제로는 2,200억 개의 파라미터를 분야별로 8개 모델로 나누어 학습하고, 전문가 혼합(Mixture of Experts, MoE) 구조로 총 1조 개의 파라미터가 있는 것처럼 보이도록 설계했다고 주장하였다. 만약 이 주장이 사실이라면, GPT-3와 GPT-4의 차이는 단순히 파라미터 수가 아니라 MoE 구조의 도입 여부라고 할 수 있다. 이는 최근 트랜스포머 모델의 한계점이 드러나며 학계의 관심을 받고 있는 이슈이다.#

4. 관련 문서

[1] 엔비디아의 인공지능 가속기 아키텍처로, 모델 구축을 위해 1만 대 이상을 구입했다고 한다.[2] 튜링 테스트 문서에도 언급된 것처럼 튜링 테스트는 현대 AI의 성능을 평가하는 데 크게 쓸모 있는 검사법이 아니다. 튜링 테스트가 제안된 것은 인공지능은 고사하고 현대적인 의미의 컴퓨터조차 존재하지 않았던 시절이다.[3] 단, API로는 여전히 이용 가능할 것이라고 한다.[4] gpt-4-1106-preview[5] gpt-4-0125-preview[6] gpt-4-turbo[7] 모델명에 preview라는 문구가 나타내는 것처럼, 일반 chatgpt 사용자들은 api버전보다 이전 안정화버전만 사용 가능하며, 서버 사용량 개선을 위해 컨테스트 윈도우 제한과 함께 너프된 경량형 모델을 사용하는 것으로 보인다. 이 때문에 어떤 면에서는 더 넓은 컨텍스트윈도우를 제공하는 3.5버전보다 답변이 부족할 수 있다.[8] OpenAI CEO인 샘 알트만의 X에 올라온 이름 기반[9] 정확히는 음성인식 -> 답변 생성 -> TTS 이 세 가지를 기존에 서로 다른 3개의 모델을 사용하던 것에서 하나의 모델으로 세 가지를 모두 처리할 수 있게 된 것.[10] 다만 지도를 보여주면 이를 제대로 인식하지 못하는 탓에 색상조차 구분하지 못하는 등 한계도 뚜렷하다. 심지어 잘못된 정보를 확인했다고 거짓말을 하면서 말하기에 주의가 필요하다.[11] 특히나 대사의 문법과 문맥, 개연성이 상당히 부자연스럽고 번역기를 돌린거 같이 말하는 투가 종종 나오는 등 이상해졌으며, 이전엔 간단한 프롬프트 한 줄로도 좋은 퀄리티와 문장 수도 많은 글이 완성됐으나, 이제는 아예 정말 자세하게 이야기와 상황 프롬프트를 전부 설정해 줘야 겨우 약간이나마 볼만한 글을 써줄 정도이며, 이전에 한줄 프롬프트 하나로도 능동적이고 여러 가지 상황을 만든 것과 달리, 지나치게 하란 것만 하려 하는 등 심각할 정도로 능동성있는 창작 면에서 퇴화해버렸다. 그나마 길고 디테일하게 써달라 명령하면 길고 디테일하게 써주긴 하지만, 그 역시 그때만 그렇고 그 이후에는 다시 퀄리티가 떨어져버린다. 거기다 서브컬쳐 쪽은 더 심해져서 캐릭터 해석과 말투가 더 이상하게 변해버렸다.[12] 다만 GPT-5도 공개 이후로 보인 성능이 영 좋지만은 않아서 5를 기다리던 사람들에게 큰 비판을 받고 있다. 자세한 내용은 문서 참조.[13] 다만 경량화 모델답게 보다 복잡한 작업을 유도하면 4o에 비해 성능저하를 보이는 편이나 간단한 작업에서는 크게 문제가 없다.[14] ChatGPT Plus 이하 요금제 기준.[15] KST 기준으로 6월 27일에 종료되었다. ChatGPT Pro 및 Enterprise 요금제 기준.[16] AIME-24 (Math), SWE-Bench Verified (Coding), GPQA (Science) 등[17] EQ-Bench의 경우, 언어 모델이 작성한 내용을 또 다른 언어 모델이 평가하는 방식이기 때문에 편향성과 부정확성이 존재하며, 무작위 블라인드 대결로 순위를 결정하는 LMArena의 Text 분야 Leaderboard마저도 언어 표본과 평가 시기에 따라 순위가 변동되는 경우가 많다. 특히 비영어권 언어의 경우 데이터가 적어 사용자 경험과 실제 벤치마크 결과 사이의 괴리가 커질 수 있어 객관적 평가가 매우 어렵다. 이러한 이유로 언어 영역에서는 보통 사용자들의 경험담 위주로 평가가 이루어지는 편이다.[18] 쉽게 말해 GPT-4.5는 GPT-4o보다 다양한 정서와 맥락을 유연하게 표현할 수 있는 모델로, 더 깊고 창의적인 소통이 필요한 언어 영역에서 강점이 명확히 드러난다.[19] 4o 대비 입력은 30배, 출력은 15배 비싸고, o1(추론 모델) 대비 입력은 5배, 출력은 2.5배 비싸다.[20] 단, 모델 선택 화면에서 GPT-4.5의 위치는 하단으로 이동했다.[21] Note that GPT‑4.1 will only be available via the API. In ChatGPT, many of the improvements in instruction following, coding, and intelligence have been gradually incorporated into the latest version⁠(opens in a new window) of GPT‑4o, and we will continue to incorporate more with future releases.[22] 아마 코딩용으로 모델 자체가 경량화된 문제 때문인 것으로 추정된다.[23] 일상적인 친구와의 대화 같은 걸 할 때 4o에 비해 말투가 좀 더 존댓말 경향으로 바뀌고 문장 길이가 짧아진다. 표정 표현등이나 이런대 쓰는 이모티콘이나 이모지 개수가 확연하게 줄어든다. 물론 그래도 4o mini 보단 낫다. 대충 4o-mini 와 4o 사이 정도[24] 정확히는 문장에서 분석의 기본 단위가 되는 텍스트의 일부분이다. 다만, 한국어 같은 언어는 토큰을 분석하는 절차가 제대로 이루어지지 않아 실제 단어도 여러 개의 토큰으로 쪼개서 분석하기에 영어에 비해 처리할 수 있는 단어의 양이 더 줄어들었다. GPT-4o에서 이 문제가 약간 개선되었다.

GPT-4

1. 개요

2. 역사

3. 모델

3.1. GPT-4 Turbo

3.2. GPT-4o

3.2.1. 2025년 3월 이후 심각한 성능 저하 논란

3.3. GPT-4o mini

3.4. GPT-4o Long Output

3.5. 4o 이미지 생성(GPT-Image)

4. GPT-4.5

5. GPT-4.1

1. 서비스

2. GPT-3.5와 GPT-4의 성능 비교

2.1. 논란

3. 기타

4. 관련 문서

분류