| ||
{{{#!wiki style="margin:0 -10px -5px" {{{#000,#fff {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-6px -1px -11px" {{{#000,#e5e5e5 | 제품군 | |
<bgcolor=#000> 서비스 | ChatGPT, OpenAI(인공지능) | |
모델 | GPT-1, GPT-2, GPT-3(GPT-3.5), GPT-4(GPT-4 Turbo, GPT-4o, GPT-4o mini), GPT-5(개발 중) o1(o1-preview, o1-mini, o1 pro mode), o3(o3-mini) | |
DALL·E, Codex, CLIP, Whisper, Voice Engine, Sora, SearchGPT | ||
관련 인물 | ||
일론 머스크, 샘 올트먼, 미라 무라티, 일리야 수츠케버, 안드레 카파시, 그렉 브록만, 다리오 아모데이 | ||
관련 기업 | ||
마이크로소프트 |
OpenAI o3 | |
출시일 | 2025년 2월 1일[1] |
발표일 | 2024년 12월 21일 |
개발사 | OpenAI |
기능 | 추론 특화 멀티모달 모델 |
하드웨어 | NVIDIA H100 |
라이선스 | Proprietary Software |
링크 |
[clearfix]
1. 개요
OpenAI가 개발한 추론형 멀티모달 모델. o3와 경량화 된 o3-mini 모델로 나뉘며, o3 모델은 2025년에 정식으로 출시될 예정이다.
o3-mini와 o3-mini-high는 2025년 2월 1일에 공개되었다.
o1의 후속 모델이지만 영국의 이동통신 브랜드 O2와의 상표권 분쟁을 피하기 위해 o2가 아닌 o3으로 명명되었다.
2. 성능
2.1. o3
GitHub에서 가져온 데이터를 기반으로 실무적인 코딩 실력을 평가하는 SWE-bench에서 71.7점으로 지금까지 발표된 모델 중 가장 뛰어난 점수를 받았다. 또한 Codeforces의 경우 2727점으로 상위 0.2퍼센트에 해당하는 점수를 받았다. 그러나 SWE-bench 문제의 77.8퍼센트는 숙련된 개발자가 1시간 안에 해결할 수 있는 문제라고 추정되기 때문에, o3가 알고리즘 등에는 어지간한 개발자들보다 뛰어날 수 있으나 실무적인 개발에 있어서는 아직 사람을 완전히 대체하기는 어렵다고 볼 수 있다.
2024년 AIME 시험에서는 96.7점으로 한 문제만 틀려서 만점에 가까운 점수를 받았다. 박사 수준의 과학 문제 역시 87.7점으로 상당히 높은 점수를 받았다.
인간에게는 어렵지 않지만 AI에게는 어려운 문제들로 구성된 ARC-AGI에서 87.5점을 받아 인간 평균 수준인 85점을 넘었다.[2] 하지만 2024년 말 기준 캐글의 경량 모델도 81%를 달성하는 등 벤치마크가 포화되고 있기 때문에 후속 ARC 벤치마크가 나올 것이라고 한다.#
그러나 o3는 해당 점수를 얻기 위하여 한 문제에만 3,440달러, 다시 말해 약 500만원 정도를 소요한 것으로 밝혀져 비용 측면에 있어 논란이 되었다. 문제당 20달러를 썼을 때에는 75.7점을 받았으며, 87.5점을 받기 위한 상태의 모델은 비용 때문에 상용화까지 시간이 필요할 것으로 보인다.
게다가 o3가 틀린 문제들과 o3의 답변들을 보면 일반적인 사람들이라면 틀리지 않을 문제들을 황당하게 푸는 모습들을 많이 보여주기 때문에, 진정한 의미로 이 분야에 있어 인간 수준까지 올라왔다고 보기는 힘들다.
가장 쉬운 문제도 국제수학올림피아드나 퍼트넘 경시대회 문제 수준인 Frontier Math에서 25.2점을 기록하였다. Will Depue라는 OpenAI의 개발자는 2025년 말까지 OpenAI가 Frontier Math에서 90점을 맞는 모델을 만들어 낼 것이라고 예상했다.#
o1-preview 발표 3개월 후에 발표되었고 AGI가 연상되는 성능을 보여주었지만, 모라벡의 역설 문제가 여전히 남아있는데다가, 추론 비용이 상당히 비싸다는 문제가 있어서 일반인이 o3 수준의 모델을 저렴하게 사용하려면 시일이 필요할 것으로 보인다.
2.2. o3-mini
o3를 경량화 한 o3-mini 모델 역시 발표되었으며, 벤치마크상으로는 OpenAI o1에 필적하거나 그 이상의 성능을 보여주었고, 무엇보다 비용이 o3는 물론이고 o1에 비해서도 훨씬 저렴하다.Codeforces에서 o1보다 훨씬 적은 비용으로 o1을 압도하는 성과를 내었으며, o3-mini(low)와 o3-mini(medium)의 경우 o1-mini보다 비용은 적게 들면서 성능은 오히려 더 뛰어났다.
그 밖의 벤치마크들에서도 o3-mini는 o1에 별로 밀리지 않는 성능을 보여주었으며, o1의 대체재 역할을 하게 될 것이 유력해 보인다.
o1이랑 마찬가지로 추론 과정에서 영어로만 질문 했는데 다른 언어[3]를 사용하는 현상을 보여준다.
수학과 코딩의 성능이나 복잡한 글을 독해하는 능력이 OpenAI에서 기존에 출시된 모델 대비 좋으며, 한국 문화에 대한 질문이나 어려운 언어 번역과 같은 문제를 해결하는데는 GPT-4o와 같은 OpenAI의 기존 모델에 비해서도 종종 어려움을 보였다. #
3. 타임라인
- 2024년 12월 20일, 연구자들을 대상으로 안전 테스트 격의 얼리 엑세스 제공을 개시했다.#
- 2025년 1월 24일, 샘 알트먼이 트위터에 o3-mini를 제한된 횟수로 사용 가능하게 공개할 예정이며, ChatGPT Plus 티어에서 무제한으로 사용 가능하게 바꿀 것이라고 선언했다.#
- 2025년 1월 26일, 샘 알트먼이 트위터에서 ChatGPT Plus 티어는 o3-mini를 하루 100회 사용가능하게 할 것이라고 선언했다.#
- 2025년 2월 1일, ChatGPT에서 o3-mini 한정으로 무료티어도 사용 가능하게 서비스를 시작했다. o3-mini-high는 ChatGPT Plus 가입자만 사용가능하다고 한다.#
4. 여담
- 추론 분야에서 일하는 OpenAI의 개발자 Noam Brown은 X에 3개월 전에 발표한 o1 대비 o3의 성능이 크게 발전한 그래프를 올리며 이러한 추세가 계속될 것이라고 확신있게 예측했다.#