나무모에 미러 (일반/어두운 화면)
최근 수정 시각 : 2024-12-29 01:01:55

OpenAI o3

O3에서 넘어옴

파일:나무위키+유도.png  
o3은(는) 여기로 연결됩니다.
기체에 대한 내용은 오존 문서
번 문단을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
참고하십시오.
파일:OpenAI 로고.svg파일:OpenAI 로고 화이트.svg
{{{#!wiki style="margin:0 -10px -5px"
{{{#000,#fff {{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-6px -1px -11px"
{{{#000,#e5e5e5
제품군
<bgcolor=#000> 서비스 ChatGPT, OpenAI(인공지능)
모델 GPT-1, GPT-2, GPT-3(GPT-3.5), GPT-4(GPT-4 Turbo, GPT-4o, GPT-4o mini), GPT-5(개발 중)
o1(o1-preview, o1-mini, o1 pro mode), o3(o3-mini)
DALL·E, Codex, CLIP, Whisper, Voice Engine, Sora, SearchGPT
관련 인물
일론 머스크, 샘 올트먼, 미라 무라티, 일리야 수츠케버, 안드레 카파시, 그렉 브록만, 다리오 아모데이
관련 기업
마이크로소프트
}}}}}}}}}}}}}}} ||
생성형 인공지능
{{{#!wiki style="margin:-0px -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"
유니모달 모델 기반
<colkeepall> 텍스트 [[소설|
소설
]] NovelAI · AI Dungeon · AI Novelist · GPTRPG
대화형 [[챗봇|
챗봇
]] ChatGPT · Microsoft Copilot · Gemini · CLOVA X · Cue: · Inflection AI · Mistral AI · Grok · Xtion AI(액션 AI)
[[언어 모델|
언어모델
]] GPT-1 · GPT-2 · GPT-3 · GPT-4 · LLaMA · Gemma · Claude · Phi · Exaone · OpenELM
코드 [[코드#컴퓨터 소프트웨어|
코드
]] GitHub Copilot · Devin · Phind
이미지 [[그림 인공지능|
그림
]] Midjourney · DALL·E · Artbreeder · NovelAI Image Generation · Stable Diffusion · FLUX.1 · Gaugan2 · Dream by WOMBO · Adobe Firefly · Deep Dream Generator
[[영상 인공지능|
영상
]] Stable Video · Sora · Meta Movie gen · Lumiere · Veo · Runway AI · Luma Dream Machine · Kling AI
[[모델링|
모델링
]] LATTE3D
오디오
소리
[[음성|
음성
]] A.I.VOICE · DeepVocal · Voice Engine
[[음악|
음악
]] Suno · Stable Audio · Udio · AIVA · SOUNDRAW · keeneat · Mix.audio · vio.dio
[[효과음|
효과음
]] OptimizerAI
멀티모달 모델 기반
대화형
+이미지
Exaone 3.0 · Samsung Gauss
+음성/이미지
GPT-4o · GPT-5 · Gemini · o1 · o3
+에이전트
Galaxy AI · Claude 3.5 Sonnet
행위
동작
[[지능형 에이전트|
에이전트
]] Apple Intelligence · Project Astra · Google Jarvis
[[인공지능 로봇|
체화
]] Tesla optimus · Google RT-X · Project Gr00t
}}}}}}}}}

OpenAI o3
출시일 2025년 예정
발표일 2024년 12월 21일
개발사 OpenAI
기능 추론 특화 멀티모달 모델
하드웨어 NVIDIA H100
라이선스 Proprietary Software
링크 파일:홈페이지 아이콘.svg

1. 개요2. 성능
2.1. o32.2. o3-mini
3. 타임라인4. 여담

[clearfix]

1. 개요



OpenAI가 개발한 추론형 멀티모달 모델. o3와 경량화 된 o3-mini 모델로 나뉘며, 2025년에 정식으로 출시될 예정이다.

o1의 후속 모델이지만 영국의 이동통신 브랜드 O2와의 상표권 분쟁을 피하기 위해 o2가 아닌 o3으로 명명되었다.

2. 성능

2.1. o3

파일:o3_1d.png

GitHub에서 가져온 데이터를 기반으로 실무적인 코딩 실력을 평가하는 SWE-bench에서 71.7점으로 지금까지 발표된 모델 중 가장 뛰어난 점수를 받았다. 또한 Codeforces의 경우 2727점으로 상위 0.2퍼센트에 해당하는 점수를 받았다. SWE-bench 문제의 77.8퍼센트는 숙련된 개발자가 1시간 안에 해결할 수 있는 문제라고 추정되기 때문에, o3가 알고리즘 등에는 어지간한 개발자들보다 뛰어날 수 있으나 실무적인 개발에 있어서는 아직 사람을 완전히 대체하기는 어렵다고 볼 수 있다.

파일:o3_2.png

2024년 AIME 시험에서는 96.7점으로 한 문제만 틀려서 만점에 가까운 점수를 받았다. 박사 수준의 과학 문제 역시 87.7점으로 상당히 높은 점수를 받았다.

파일:1734721292.png

인간에게는 어렵지 않지만 AI에게는 어려운 문제들로 구성된 ARC-AGI에서 87.5점을 받아 인간 전문가 수준인 85점을 넘어 AGI 타이틀을 획득하였다. 이 때문에 후속 ARC 벤치마크가 나올 것이라고 한다. 그러나 해당 점수를 얻기 위하여 한 문제에만 3,440달러, 다시 말해 약 500만원 정도를 소요한 것으로 밝혀져 비용 측면에 있어 논란이 되었다. 문제당 20달러를 썼을 때에는 75.7점을 받았으며, 87.5점을 받기 위한 상태의 모델은 비용 때문에 상용화까지 시간이 필요할 것으로 보인다.


파일:화면 캡처 2024-12-21 205316.png

가장 쉬운 문제도 국제수학올림피아드퍼트넘 경시대회 문제 수준인 Frontier Math에서 25.2점을 기록하였다. Will Depue라는 OpenAI의 개발자는 2025년 말까지 OpenAI가 Frontier Math에서 90점을 맞는 모델을 만들어 낼 것이라고 예상했다.#

o1-preview 발표 3개월 후에 발표되었고 AGI 달성이 머지 않았다 싶은 성능을 보여주었지만, 모라벡의 역설 문제가 여전히 남아있는데다가, 추론 비용이 상당히 비싸다는 문제가 있어서 일반인이 o3 수준의 모델을 저렴하게 사용하려면 시일이 필요할 것으로 보인다. 그럼에도 o1-preview 발표 이후 고작 3개월만에 이 정도로 성능이 향상됐다는 것과 발전의 추세선은, 이젠 정말로 AGI 도달이 얼마 남지 않았음을 시사한다.

2.2. o3-mini

o3를 경량화 한 o3-mini 모델 역시 발표되었으며, 벤치마크상으로는 OpenAI o1에 필적하거나 그 이상의 성능을 보여주었고, 무엇보다 비용이 o3는 물론이고 o1에 비해서도 훨씬 저렴하다.

파일:1734788729.png

Codeforces에서 o1보다 훨씬 적은 비용으로 o1을 압도하는 성과를 내었으며, o3-mini(low)와 o3-mini(medium)의 경우 o1-mini보다 비용은 적게 들면서 성능은 오히려 더 뛰어났다.

파일:화면 캡처 2024-12-21 225051.png

파일:화면 캡처 2024-12-21 225248.png

파일:safsdfsewer.png

그 밖의 벤치마크들에서도 o3-mini는 o1에 별로 밀리지 않는 성능을 보여주었으며, o1의 대체재 역할을 하게 될 것이 유력해 보인다.

3. 타임라인

4. 여담