나무모에 미러 (일반/어두운 화면)
최근 수정 시각 : 2026-06-19 12:53:30

언어 모델

LLM에서 넘어옴

<nopad>
{{{#!wiki style="margin: 0 -10px -5px; min-height: calc(1.5em + 5px)"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -5px -1px -11px"
<colbgcolor=#2e3039,#2e3039><colcolor=#fff,#fff> 종류 대화형 인공지능 (주요 목록) · 코드 생성 인공지능 · 그림 인공지능 · 영상 인공지능 · 음악 인공지능 · 음성 인공지능 · 3D 모델링· 지능형 에이전트 · VLA · 멀티모달 모델 · 언어 모델 · 월드 모델
프롬프트 프롬프트 · 프롬프트 엔지니어링 · 프롬프트 해킹 · 에이전트 스킬 · 하네스 엔지니어링
아키텍처 트랜스포머 · GAN · 확산 모델 · 변분 오토인코더 · 자기회귀모델
학습 자기지도학습 · 강화학습 (RLHF)
응용 AI 개요 · 인공지능 검색 엔진 · 바이브 코딩 · 에이전틱 코딩(AGENTS.md · CLAUDE.md · MCP · Computer Use · Postman · Playwright) · 인공지능 로봇 (테슬라 옵티머스)
문화·밈 AI 커버 · 쇼거스 · 인공지능 버츄얼 유튜버 · ChatGPT 지브리풍 이미지 생성 유행 · 와... 너 정말, **핵심을 찔렀어.** · 세상에서 제일 하찮은 프롬프트
기타 AI 슬롭 · AI wrapper · 인공지능 환각 · 인공지능 검사기 · AI 중독 · 인공지능 벤치마크 · Model Context Protocol · 대중화 · 인공 일반 지능 · 인공지능 정렬 · Spiritual bliss attractor
}}}}}}}}} ||
{{{#!wiki style="margin:-0px -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"
OpenAI GPT (1 · 2 · 3 · 4.x · 5.x · 6개발 중)
GPT-OSS (20B · 120B)
OpenAI (o1 · o3 · o4)
구글 Gemini (1 · 1.5 · 2 · 2.5 · 3 · 3.1 · 3.5)
Gemma · LaMDA · PaLM 2
Anthropic Claude (Fable · Opus · Sonnet · Haiku)
xAI Grok
메타 LLaMA · Muse Spark
기타 파일:대한민국 국기.svg HyperCLOVA(네이버) · 카나나(카카오) · 삼성 가우스(삼성전자) · 엑사원(LG AI연구원) · 믿:음(KT) · A.X(SK텔레콤) · Solar(업스테이지)
파일:미국 국기.svg NVIDIA Nemotron(NVIDIA) · Phi(Microsoft) · Apple Foundation Models · OpenELM(Apple)
파일:중국 국기.svg DeepSeek · Qwen(알리바바) · 어니봇(바이두) · Kimi(Moonshot AI) · MiniMax · Z.ai(GLM)
파일:일본 국기.svg 나마즈(Sakana AI)
}}}}}}}}}

1. 개요2. 구조3. 역사
3.1. 2017년 이전3.2. 2018년 ~ 2022년3.3. 2023년 ~ 현재
4. 학습
4.1. 학습 데이터4.2. 학습 과정
4.2.1. 사전 학습(Pre-training)4.2.2. 지도학습 미세조정(Supervised Fine-tuning)4.2.3. 정렬(Alignment)
5. 성능 평가6. 분류
6.1. 생성형 모델 vs 판별형 모델6.2. 대규모 모델 vs 소규모 모델6.3. 추론 모델 vs 비추론 모델6.4. FP32 vs FP16 vs FP8 vs Q8, Q6, Q46.5. 폐쇄형 모델 vs 개방형 모델6.6. Auto-regressive LLM vs dLLM6.7. Dense Model vs Sparse Model6.8. 언어 모델 vs 동작 모델
7. 주요 언어 모델8. 시장 동향9. 비판 및 문제점10. 관련 문서

1. 개요

LM, Language Model

입력값(자연어, 보통은 사용자의 문장)을 기반으로 통계학적[1]으로 가장 적절한 출력값을 출력하도록 학습된 모델이다.

규모가 큰 언어모델(LM)을 LLM(Large Language Models, 대규모 언어 모델)이라고 부르는데, 매개변수 규모가 막대한, GPT-4 같은 모델들이 이에 해당한다. 반대로 규모가 작은 쪽은 SLM(small Language Models)이라 하는데, 다룰 수 있는 범위가 LLM에 비해 좁은 대신 비용이 적게 들어간다.[2] LLM의 경우는 주로 메인프레임, 슈퍼컴퓨터에서 돌아가는 반면, SLM은 워크스테이션, 심지어는 일부 고성능 PC나 스마트폰[3]에서 실행되기도 한다.

2023년 ChatGPT의 성공으로 인하여 큰 인기를 얻었으며 산업계 뿐만 아니라 학계에서도 가장 화두가 되어 매일 팔로업하기 힘들 정도로 수많은 논문들이 쏟아져 나오고 있는 분야다.

2. 구조

크게 통계학 기반과 인공신경망 기반으로 나눠 볼 수 있다. 2023년 ChatGPT 쇼크 이후 현 시점에서는 인공신경망 기반이 아닌 언어 모델은 경제성이 없고 성능이 매우 떨어지므로 전혀 사용되지 않는다. 본래는 RNN를 백본으로 구축 되었으나 Attention Is All You NeedBERT 이후로는 인공신경망 중에서도 자기지도학습 방식으로 학습된 트랜스포머 아키텍처 기반 모델들이 절대 다수를 차지하고 있다.

텍스트(자연어), 이미지(2차원), 포인트 클라우드(3차원), 오디오 등 여러 모달리티의 대규모 데이터셋을 모아서 토큰화, 학습시켜 LLM 기반 멀티모달 모델을 구현하는 것도 가능하다.

3. 역사

3.1. 2017년 이전

LLM의 역사를 논하기 전에, 그 기반이 된 기술들을 먼저 짚고 넘어가야 한다. 초창기 자연어 처리(NLP)는 규칙 기반 시스템이나 통계적 방법론에 크게 의존했다. 이후 딥러닝이 부상하며 RNN과 이를 개선한 LSTM이 각광받았다. 이런 RNN 기반 모델들은 문장의 순차적인 정보를 처리하는 데 강점을 보였지만, 두 가지 고질적인 문제를 안고 있었다.

하나는 기억력의 한계로, 문장이 길어질수록 앞부분의 정보를 잊어버리는 '장기 의존성 문제(Vanishing Gradient)'가 발생했다는 점이며, 다른 하나는 구조상의 한계로 단어를 하나씩 순서대로 처리해야 하기에 병렬 처리가 어렵고 대규모 데이터 학습에 시간이 매우 오래 걸렸다는 점이다.

이러한 한계를 극복하기 위한 연구가 계속되던 중, 2017년 Google의 연구진이 한 편의 기념비적인 논문, Attention Is All You Need를 발표한다. 이 논문 하나가 언어 모델 전체의 역사를 바꾸고 LLM이라는 개념을 정립하는 계기가 되었다고 해도 과언이 아니다.

이 논문에서 제시된 트랜스포머 아키텍처는 RNN이나 LSTM의 순환 구조를 완전히 버리고, 어텐션(Attention) 메커니즘만으로 문장을 처리하는 혁신적인 아이디어를 선보였다. 어텐션은 문장 내 단어들의 관계 중요도를 한 번에 계산하여 어떤 단어에 '주목(Attention)'해야 할지 파악하는 기술로, 덕분에 병렬 처리가 가능해져 학습 속도가 비약적으로 빨라졌고 문장이 길어져도 핵심 정보를 놓치지 않게 되었다.

3.2. 2018년 ~ 2022년

트랜스포머라는 강력한 무기가 등장하자, OpenAI구글을 중심으로 본격적인 '거대 모델' 경쟁의 막이 올랐다. 2018년 6월 OpenAI는 방대한 데이터로 사전학습하는 방법론을 제시한 GPT-1을 공개했고, 같은 해 10월 구글은 양방향 학습으로 문장 이해(NLU) 능력의 새 지평을 연 BERT를 발표하며 NLP 분야의 패러다임을 바꿨다.

이듬해인 2019년, OpenAI는 파라미터 수를 10배 이상 늘린 GPT-2를 통해 놀라운 문장 생성 능력을 선보였다. 언어 모델의 크기를 키워 성능을 높인다는 아이디어의 중심에는 일리야 수츠케버가 있었던 것으로 알려져 있으며 이 시기부터 '모델의 크기를 키우면 성능이 향상된다'는 스케일링 법칙(Scaling Laws)이 증명되어 LLM 경쟁은 본격적인 '규모의 전쟁'으로 돌입했다.

2020년, 이 경쟁은 하나의 거대한 변곡점을 맞이한다. GPT-2보다 100배 이상 커진, 무려 1,750억 개의 파라미터를 가진 괴물, GPT-3가 등장한 것이다. GPT-3는 별도의 미세조정 없이 몇 개의 예시만으로도 번역, 요약, 코딩 등 거의 모든 언어 작업을 전문가 수준에 가깝게 수행하는 능력을 보여주며 개발자 커뮤니티에 엄청난 충격을 주었다. OpenAI는 GPT-3를 API 형태로 유료 제공하기 시작했고, 이를 기반으로 한 수많은 서비스가 탄생했다.

GPT-3가 가져온 충격에 구글은 대화에 특화된 LaMDA와 더욱 규모를 키운 PaLM을 각각 2021년과 2022년에 발표하며 맞불을 놓았다. 특히 LaMDA는 구글의 엔지니어 블레이크 르모인이 지각이 있는 것 같다고 주장하다 해고되는 해프닝으로 이어졌을 정도로 당시 기준으로는 매우 자연스러운 대화 능력을 보여주었고 AI 윤리와 지능의 정의에 대한 사회적 논의를 촉발시켰다.

3.3. 2023년 ~ 현재

하지만 이 모든 경쟁 구도를 한순간에 정리하고 생성 AI 시대를 본격적으로 연 진정한 게임 체인저는 2022년 11월에 등장했다. OpenAIGPT-3.5 모델을 기반으로 공개한 ChatGPT가 바로 그것. ChatGPT는 출시 단 두 달 만에 사용자 1억 명을 돌파하며 전 세계적인 신드롬을 일으켰다. RLHF라는 기술을 적용하여 모델이 더 유용하고 정직하며 무해한 답변을 하도록 훈련시킨 것이 결정적이었다. 전문가가 아닌 일반 대중도 쉽고 안전하게 LLM의 경이로운 능력을 체험할 수 있게 된 것.

ChatGPT의 폭발적인 성공은 LLM 경쟁을 전면전으로 격화시켰다. OpenAI는 2023년, 텍스트뿐만 아니라 이미지까지 이해하는 멀티모달(Multimodal) 기능을 탑재한 GPT-4, 추론 능력을 구현한 o1을 1년 간격으로 연이어 공개하며 기술 격차를 다시 한번 과시했다. 한편 시장의 판도를 뒤흔든 또 다른 축은 오픈 소스 진영이었다. 메타가 학술용으로 공개한 LLaMA 모델이 유출된 후, 이를 기반으로 Alpaca, Vicuna 등 수많은 오픈 소스 모델들이 쏟아져 나오며 LLM 민주화의 가능성을 열었다.

2025년 들어 OpenAI 위주의 우위는 깨져가는 모습을 보여주고 있다. Google의 Gemini 3.0이 벤치와 실제 성능에서 상당한 파워를 보여주며 관심을 불러 일으키고 있고, Anthropic의 ClaudeClaude Code 등의 서비스에서 상당한 수준의 개발 역량을 보여주고 있다. 중국의 개발 저력 역시 만만치 않아서, DeepSeekOpenAIAnthropic, Google 등 빅테크 기업들의 전유물이자 최첨단 모델들만 구현 가능한 것으로 여겨졌던 추론 모델의 구현에 성공, 자사의 추론 모델인 r1을 오픈 웨이트로 풀며 학습 파이프라인까지 함께 공개해 오픈소스 진영에 추론 모델의 붐을 일으켰다. 이러한 글로벌 경쟁 속에서 네이버, 카카오, LG전자 등 국내 기업들 역시 한국어에 특화된 자체 LLM 개발에 뛰어들며 치열한 기술 경쟁에 참전하고 있다.

현재 LLM의 역사는 하루가 다르게 새로운 기록을 써 내려가고 있으며 기술의 발전 속도는 그 누구도 예측하기 어려운 상황이다.

4. 학습

대규모 언어 모델(LLM)의 인간의 언어를 이해하고 생성하며 다양한 작업을 수행하는 능력은 거의 전적으로 학습을 통해 얻어진다.# LLM 학습은 말 그대로 모델이 방대한 양의 데이터로부터 패턴, 문법, 사실 정보, 추론 능력 등을 습득하는 과정으로 엄청난 양의 컴퓨팅 자원과 시간이 소모되는 핵심 단계다.

4.1. 학습 데이터

LLM 학습에 사용되는 데이터는 모델의 성능과 특징을 결정짓는 가장 핵심적인 요소라고 할 수 있다. 최신 LLM들은 일반적으로 수백 기가바이트(GB)에서 많게는 수 페타바이트(PB)에 달하는 방대한 양의 텍스트와 코드 데이터셋을 기반으로 학습된다. 이렇게 데이터의 양이 많을수록 모델은 더욱 다양한 패턴과 정보를 학습해 역량을 키울 수 있다.

데이터의 규모만큼이나 데이터 다양성도 중요하다. 웹 크롤링을 통해 수집된 데이터를 비롯, 책, 위키백과, 뉴스 기사, 학술 논문, 코드 저장소 등 여러 출처에서 얻은 데이터가 학습에 활용된다. 이렇게 다양한 분야의 데이터를 학습해야만 모델이 편중되지 않고 일반적인 상황에서도 뛰어난 언어 능력을 갖출 수 있게 된다.

다만 단순히 양이 많은 것만으로는 충분하지 않은데, 데이터의 질 또한 모델 성능에 결정적인 요소이기 때문이다. 학습 데이터에 잘못된 정보가 포함되어 있거나 불필요하게 반복되는 내용이 많다면 모델의 성능을 저하시키는 원인이 될 수 있다. 따라서 효과적인 모델 학습을 위해서는 데이터 정제 및 필터링 과정에 상당한 노력을 기울여 데이터의 질을 확보하는 것이 필수적이다.

이런 맥락에서 실제로 많은 연구자들과 개발자들이 양질의 데이터를 어떻게 확보하고 활용할 것인가에 주목해 왔다. 아래는 AI업계 전문가와 명사들 가운데 LLM 학습에 있어서 질적으로 좋은 데이터의 확보를 특히 강조한 인물들이다.

4.2. 학습 과정

현재는 사전학습 기반 파운데이셔널 모델이 언어 모델의 주요 패러다임이 되었기에 아래의 항목에서는 이들 모델의 학습 과정을 소개한다. 전반적인 학습 파이프라인은 sLM이나 LLM이나 다르지 않으며 사전학습-지도학습 미세조정-정렬 세 단계로 나뉜다.

4.2.1. 사전 학습(Pre-training)

가장 시간이 오래 걸리고 비용이 많이 드는 단계로 자기지도학습 방식으로 진행된다. 모델은 정답 레이블 없이 단순히 주어진 텍스트 데이터만을 가지고 학습한다.
학습 과제로는 주로 다음 단어 예측(Next Token Prediction)이나 빈칸 채우기(Masked Language Modeling)와 같은 방식이 사용된다. 예를 들어 “나는 배가 고파서 ___”라는 문장이 주어졌을 때, 모델은 빈칸에 들어갈 가장 확률 높은 단어, 가령 밥이나 빵, 라면 같은 단어를 예측하도록 학습된다.
사전 학습을 통해 모델은 언어의 문법, 구조, 어휘 의미, 세상의 상식 등 매우 일반적인 언어 능력을 습득하게 된다. 이 단계의 결과물이 바로 특정 작업에 특화되지 않은 기반 모델(Base Model)이다.

4.2.2. 지도학습 미세조정(Supervised Fine-tuning)

사전 학습된 기반 모델을 특정 목적에 맞게 조정하는 단계로 상대적으로 적은 데이터와 자원으로도 진행가능하다. 미세조정 단계에서는 사용자의 질문에 답하거나 요약, 번역, 창작 등 특정 작업을 더 잘 수행할 수 있도록 모델을 훈련시킨다.[4] 미세조정의 주요 방법론은 지도 학습(Supervised Learning)으로 특정 작업에 대한 정답 쌍(입력-출력) 데이터셋을 사용해 모델을 학습시키는 방식이다.

4.2.3. 정렬(Alignment)

모델의 출력이 인간의 의도에 부합하고 유용하며 안전하도록 만드는 정렬(Alignment) 과정을 거쳐야 LLM은 비로소 제 기능을 할 수 있게 된다. 이 정렬을 위한 방법 중 하나가 강화학습(Reinforcement Learning)인데, 이는 모델의 출력에 대해 보상을 부여하며 학습시키는 방식이다. 그런데 여기서 말하는 정렬을 위한 강화학습은 사실 모방학습(imitative learning)에 가까운 것으로, 구체적으로는 인간 피드백을 활용하는 강화학습(Reinforcement Learning from Human Feedback)이라고 불린다 RLHF는 3단계를 거쳐 학습이 이뤄진다. 첫 번째는 인간의 피드백을 통해 모델의 출력을 평가하는 단계고, 두 번째는 인간 평가를 기반으로 보상 모델을 만든 것이며 마지막 단계가 이 보상 모델을 이용해 강화 학습을 수행하는 것이다. 이 세 가지 단계를 모두 거쳐야 언어 모델을 정렬할 수 있는 것이다. [5]

5. 성능 평가

파일:상세 내용 아이콘.svg   언어 모델의 성능평가에 대한 자세한 내용은 인공지능 벤치마크 문서
#!if (문단 == null) == (앵커 == null)
를
#!if 문단 != null & 앵커 == null
의 [[인공지능 벤치마크#s-3.1|3.1]]번 문단을
#!if 문단 == null & 앵커 != null
의 [[인공지능 벤치마크#|]] 부분을
참고하십시오.
언어 모델에서 인공지능 벤치마크는 모델의 성능을 객관적으로 평가할 수 있는 기준이 된다. 다양한 과제나 질문을 통해 모델이 실제로 얼마나 효과적으로 작동하는지를 측정할 수 있으며 이를 바탕으로 모델의 강점과 약점을 파악하고 향후 개선 방향을 설정할 수 있기 때문. 벤치마크를 통해 서로 다른 모델 간의 성능을 비교적 객관적으로 견주어 볼 수 있어 연구자들은 물론 사용자 입장에서도 상황에 맞는 최적의 모델을 선택하는 데 도움이 된다.

6. 분류

6.1. 생성형 모델 vs 판별형 모델

생성형 인공지능 열풍으로 처음 언어 모델을 접한 사람들이 자주 오해하기도 하지만 모든 언어 모델이 생성형 모델은 아니다. 오히려 트랜스포머 아키텍처를 대규모 언어 모델에 적용한 첫 성공 사례인 BERT는 인코더(encoder) 모듈만 있는 판별형 모델로서 데이터의 분포를 직접 학습하지 않는다.

지금 시점에서는 특수 목적을 위한 판별형 언어 모델을 굳이 구축할 필요가 거의 없기 때문에 일상에서 접하는 상용 인공지능 챗봇 서비스들은 전부 생성형 모델기반이다.[6]

6.2. 대규모 모델 vs 소규모 모델

2020년대 들어 “LLM 스케일링 법칙(LLM Scaling Law)” 이라는 말이 유행하기 시작했는데, 대규모 언어 모델(LLM)의 특정 요소를 택해 그 규모를 키우면 성능이 예측 가능하게 향상된다는 내용의 법칙이다.[7] 규모를 키울 수 있는 차원은 크게 매개변수로 측정되는 모델의 크기, 훈련 데이터셋의 크기, 그리고 훈련에 사용되는 연산 자원이 있으며 통틀어 training time compute라고 지칭하기도 한다.

대형 언어 모델(Large Language Model, LLM)은 트랜스포머 기반 언어 모델을 이 세 가지 차원 모두에서 확장해 탄생시킨 모델로, 방대한 양의 텍스트 데이터로 사전 학습(pre-trained)되어 인간의 언어를 이해하고 생성하는 데 뛰어난 성능을 보이는 인공지능 모델을 총칭하는 개념이다. 기존의 자연어 처리 모델들이 특정 작업에 국한된 성능을 보인 반면, LLM은 문맥 이해, 요약, 번역, 질의응답, 텍스트 생성 등 광범위한 언어 관련 작업을 별도의 추가 학습 없이, 혹은 약간의 파인튜닝만으로 수행할 수 있는 범용성이 특징이다. 이런 범용성으로 말미암아 LLM을 여러 수행 과제의 기반이 된다는 의미에서 파운데이셔널 모델(foundational model)이라고도 부른다[8]

LLM들은 예외없이 트랜스포머(Transformer) 아키텍처를 기반으로 하며[9] 작게는 수십억 개에서 많게는 수조 개에 이르는 방대한 파라미터(매개변수)를 가지고 있다. 대표적인 예로는 OpenAIGPT 시리즈, GoogleBERT, LaMDA, PaLM, MetaLLaMA 등이 있다

LLM과 비교해 규모가 상대적으로 작은 모델들은 sLM(Small Language Model, 소형 언어 모델)이라고 부른다. 대형 언어 모델(LLM)은 그 규모가 너무나 클 뿐만 아니라 학습한 데이터량은 더욱 방대해서 온전히 그 규모나 구조를 파악하는 것이 쉽지 않다. 반면에 sLM은 LLM에 비해서 용도나 구조가 더 간단하여 범용성은 떨어지지만 특화 영역에서는 LLM보다 가성비 높은 선택지가 될 수 있다. 따라서 LLM과 sLM은 상호보완적인 관계라고 볼 수 있다.

단, 대형 모델과 소형 모델을 나누는 기준은 명확하지 않으며 합의된 기준도 없다. SOTA (State-of-the-art) 급 모델들의 크기인 1T급, 500B급, 100B급 부터 70B 정도만 되어도 대형이라고 칭하고 그보다 작은 모델을 몽땅 소형이라고 부르는 경우도 있기 때문이다. 이 때문에 파라미터 수로 대형과 소형을 나누는 게 아니라 모델의 구동이 온디바이스와 같은 소형 장치에서 동작하는가, 서버 또는 워크스테이션급이나 고사양 개인용 시스템에서 돌아가는가로 보는 상대적 개념으로 보는 것이 타당하다. 또한 온디바이스 역시 점점 메모리를 불려나가는게 2026년의 추세이기 때문에, LLM과 SLM의 기준점은 여전히 모호한 상태에 있다. 굳이 기준점을 찾자면 처음으로 창발성을 나타냈던 10B ~ 70B 를 찾아볼 수 있겠으나, 2026년에는 압축된 E2B, E4B 모델들도 그럭저럭 잘 떠들어서 그 지점을 기준선으로 부르기에는 너무 옛날 기준이라는 느낌도 있다.

6.3. 추론 모델 vs 비추론 모델

한편 언어 모델을 분류하는 두 번째 스케일링 기준이 있는데 그것이 바로 추론 모델과 비추론 모델의 구분이다.

추론 모델(reasoning model)이란 기본적으로 추론 스케일링(Inference Scaling)을 통해 성능을 대폭 향상한 모델들을 일컫는다. 추론 스케일링(Inference Scaling)은 테스트 시간 스케일링(Test Time Scaling, TTC)이라고도 하는데, 테스트 단계에서 동적으로 계산 자원을 늘려 인공지능 모델의 성능을 향상키는 방법이다. 추론 스케일링의 성능 향상폭이 사전 학습 당시 동원된 데이터 규모나 모델 파라미터와 상관관계를 맺고 있기도 하고, 필요에 따라 동적으로 계산 자원을 늘이는 모델을 돌린다는 것 자체가 탄탄한 연산 인프라를 확보하지 않으면 상당히 어렵기 때문에 규모가 작은 로컬 모델들은 대부분 비추론 모델이며 현재까지 나와 있는 추론 모델들은 거의 전부가 LLM이다.

이 추론 스케일링은 실시간으로 컴퓨팅 자원을 유동적으로 증강할 수 있다는 점에서 기존에 대형 언어 모델을 구현하던 훈련 시간 스케일링(train time scaling) 패러다임과 더불어 스케일링의 '두 번째 축'으로 알려져 있다. #

추론 모델을 구현하는데는 강화학습이 필수적이다.[10] 이를 '검증 가능한 보상을 이용한 강화학습(Reinforcement Learning with Verifiable Rewards, RLVR)'이라고 한다. 최초의 추론 모델은 2024년 9월 12일 출시된 OpenAI o1 preview이며 DeepSeek의 r1, Gemini 2.5[11]등도 추론 모델의 일종이다.

추론 모델은 비추론 모델에 비해 추론(이성 능력), 수리적 사고력, 개발 능력이 비약적으로 상승했으며 소수점 자리 연산이나 글자 수 세기 등 인간은 쉽게 수행하지만 비추론 모델이 자주 저지르던 어이없는 실수도 상당 부분 개선할 수 있었다. 다만 o3의 경우에서 보듯이 추론 모델 특유의 환각은 비추론 모델에 비해 더 교묘하고 다루기 어려운 측면이 있어 ‘추론 모델이 비추론 모델에 비해 환각이 적다’라는 말은 항상 진실은 아니다.[12] 이런 추론 모델의 발전에 힘입어 2025년 바이브 코딩이라는 개념 또한 처음 정립되었다.

추론 모델이 아닌 모델들은 일반적으로 비추론 모델(non-reasoning model)이라고 하며 딱히 명칭이 정해진 것은 아니다보니 일반 모델(regular model), 표준 모델(standard model), 범용 모델(general purpose model) 등 다양한 명칭으로 불리곤 한다.

6.4. FP32 vs FP16 vs FP8 vs Q8, Q6, Q4

정밀도(precision)의 차이로 FP32는 32비트 부동소수점 연산을, FP8은 8비트 부동소수점 연산을 의미한다. 적절한 양자화(quantization)기법을 통해 4bit, 2bit 등으로 더 낮출 수도 있다고는 하나 정밀도가 지나치게 낮아지면 오버플로우나 언더플로우 현상이 나타나는 등 성능에 영향을 미치는 것으로 알려져 있다. 특히 검증되지 않은 모델의 크기를 확장하는데 주저하는 빅테크 기업 특성상 정밀도가 낮은 대규모 모델은 아직 나오지 않으며 Mixed Precision FP16이 거의 업계 표준으로 받아들여지고 있다.

낮은 정밀도의 사용처는 가용 컴퓨팅 자원이 제한적인 개인 로컬 사용이나 온디바이스와 같은 곳에서 주로 사용된다. NVIDIA는 Rubin, Blackwell Tensor Core 부터 FP8, FP6, INT8과 NVFP4 라는 4비트 부동소수점 연산을 지원한다.

2023년 시점에는 llama.cpp 에서 Q4_K_M을 공식적으로 권장했다. 그러나 AMD가 작성한 문서에서는 프로그래밍과 같은 정교한 작업에서는 Q6가 최소, Q8을 권장하는 내용을 추가하였다. #

6.5. 폐쇄형 모델 vs 개방형 모델

구글OpenAI가 연구 목적 외의 기반 기술을 공개하지 않는 폐쇄형 노선을 선택하며 업계를 선두하고 있는 반면, 비교적 후발 주자라고 평가받는 메타오픈소스로 기반 기술을 공개하여 Vicuna, Alpaca 등 여러 파생형 모델들의 출시를 간접적으로 도왔다. 심지어 LLaMA-2는 상업용으로도 사용 가능한 라이선스일 정도로 이례적이라 큰 이목을 끌었다.[13] 또한 데이터브릭스가 인수한 모자이크ML은 단돈 25만 달러에 데이터를 외부에 보내지 않고 구축 가능한 기업용 언어모델을 위주로 보안성을 홍보하고 있다. 해당 산업에는 수요만큼 전문 인력의 공급이 많지 않은 탓에, 인재 영입에는 폐쇄형이 유리하고 생태계 확장에는 오픈형이 유리하다는 장단점이 있다.

6.6. Auto-regressive LLM vs dLLM

전통적인 LLM의 패러다임은 자기회귀모델이지만 최근에는 빠른 생성 속도를 강조하는 확산 모델 기반 dLLM이 개발되고 있다. 아직은 실험적인 단계에 머물러 있지만 최근 Gemini Diffusion등 빅테크발 dLLM 모델도 나오고 있다.

6.7. Dense Model vs Sparse Model

MoE(Mixture of Expert)전략을 사용하는 희소모델은 모든 레이어를 사용하는 Dense model에 비해 라우터가 적합한 레이어만 활성화하는 방식으로 동작하며 학습 시간과 연산 비용을 아끼고 추론 속도를 향상시키는 대신 품질 하락의 가능성을 감수해야 한다.
보통 같은 매개변수를 가진 모델들이 있을 때 일부만 사용하는 MoE 구조와 달리 Dense 쪽의 추론성능이 높은 편이나 트랜스포머 알고리즘의 문제인 연산량 폭증의 문제가 있어 대형 모델로 갈수록 Dense 모델은 잘 사용하지 않고 MoE 구조를 사용하는 것이 보통이다.

GPT4에 MoE 전략이 적용되었다고 알려져 있다.

6.8. 언어 모델 vs 동작 모델

파일:상세 내용 아이콘.svg   인공지능 소프트웨어 에이전트에 대한 자세한 내용은 지능형 에이전트 문서
#!if (문단 == null) == (앵커 == null)
를
#!if 문단 != null & 앵커 == null
의 [[지능형 에이전트#s-|]]번 문단을
#!if 문단 == null & 앵커 != null
의 [[지능형 에이전트#|]] 부분을
참고하십시오.
동작 모델(Action Model)은 언어 모델에서 더 나아가 학습된 상태를 기반으로 컴퓨팅 리소스를 직접 동작시키는 모델이다. 언어 모델은 단순히 출력값이 말 (words)이지만 동작 모델은 컴퓨팅 리소스에 연결되어 명령어 (commands)를 출력하여 주변 오브젝트를 동작시킨다. 동작 모델도 LAM (Large Action Model; 대형 동작 모델)과 SAM (Small Action Model; 소형 액션 모델)으로 나뉜다.

7. 주요 언어 모델

파일:상세 내용 아이콘.svg   자세한 내용은 분류:언어 모델 문서
#!if (문단 == null) == (앵커 == null)
를
#!if 문단 != null & 앵커 == null
의 [[분류:언어 모델#s-|]]번 문단을
#!if 문단 == null & 앵커 != null
의 [[분류:언어 모델#|]] 부분을
참고하십시오.
현재 주요 언어 모델은 아래와 같다.[14] 많은 기업들이 언어 모델을 독자 개발하고 있으나 GPT, Gemini, Claude, LLaMA, Grok, DeepSeek이 점유율의 대부분을 차지하고 있으며 나머지 모델들은 거의 사용되지 않는다고 봐도 무방할 정도로 존재감이 매우 낮다.[15] 중국에서는 DeepSeek의 언어 모델들과 알리바바의 Qwen이 가장 수준이 높고 국내에서는 엑사원HyperCLOVA가 가장 성능이 좋고 유명하다.

8. 시장 동향

파일:B6471631-FAB3-485E-8506-83441FDB5FFC.jpg
2022년까지는 미국 등 압도적으로 영어를 기반으로 학습한 모델들 위주였으나, 2023년 들어서 ChatGPTiOS 앱이 다개국어로 런칭되고 Bard 역시 영어 외에 일본어와 한국어를 우선적으로 런칭하는 등 비영어권을 대상으로 한 경쟁이 매우 거세지고 있다. 중국에서는 바이두, 한국에서는 네이버 등이 자체적 언어모델을 개발하였다. 특히 중국은 다른 국가와 달리, 당국 주도 펀딩을 통해 산학연의 연구가 수직화되는 케이스가 대부분이기 때문에 개발 속도에 큰 진전을 보이고 있다. 또한 인구도 많은 데다 서방과 달리 사생활 침해, 데이터 프라이버시 등에 대한 반발이 적은 편이라 퀄리티 높은 데이터 수집에 유리한 편이다.

모델 개발사는 본인이 서비스를 직접 구축하는 방법 외에도 서드파티 개발사에 API를 지원하여 수익을 창출할 수 있고[17] API플러그인을 통한 생태계 형성과 유료판매, 자체 소프트웨어 출시 등 아직까지 시장이 초창기인데도 수익화와 생태계 확장 가능성이 무궁무진하여 여러 업체들이 뛰어 들고 있다.

9. 비판 및 문제점

파일:상세 내용 아이콘.svg   자세한 내용은 언어 모델/문제점 문서
#!if (문단 == null) == (앵커 == null)
를
#!if 문단 != null & 앵커 == null
의 [[언어 모델/문제점#s-|]]번 문단을
#!if 문단 == null & 앵커 != null
의 [[언어 모델/문제점#|]] 부분을
참고하십시오.

10. 관련 문서


[1] 귀납논증 기반 확률적으로 가장 개연성이 높은.[2] LLM과 명확한 구분을 짓기 위해 S가 소문자인 sLM을 쓰기도 한다.[3] 아이폰과 갤럭시 모두 OS에 SLM을 내장하고 온디바이스 알림 요약, 답장 추천 등에 활용한다.[4] 이 단계가 생략된 기반 모델 자체만으로는 우리가 흔히 보는 챗봇처럼 자연스러운 대화를 하는 것은 불가능하다[5] RLHF는 사용자 선호도와 안전성을 높이는 데 효과적인 접근법으로, 좀처럼 길들여지지 않던 LLM을 제어 가능하게 만들어 ChatGPT 성공 신화의 밑바탕이 되었다.[6] 다만 판별형 모델들은 다른 용도로는 여전히 널리 사용되고 있다. LLM은 아니지만 CLIP, SigLIP등 VLA그림 인공지능, VLM에 들어가는 핵심 인코더 모듈들은 그 자체가 판별형 VLM이기도 하다.[7] 법칙이라고는 하지만 경험적으로 실증해야 하는 가설의 영역이다.[8] 다만 파운데이셔널 모델이라는 표현은 LLM을 통해 처음 실증되기는 하였으나 다른 모달리티의 모델에서도 사용되는 말이다.[9] 트랜스포머 이전의 다른 모델 아키텍처로는 규모를 늘일 수가 없어서 LLM이라는 개념이 아예 성립할 수가 없었다.[10] 간혹 지식 증류(knowledge distillation)와 SFT(Supervised finetuning)만으로 추론 모델을 구현하는 경우가 있지만 이미 추론 모델이 존재하는 상황에서만 가능한 방법인데다 성능도 그다지 뛰어나지 않다[11] pro와 flash 모델 모두 추론 모델이다.[12] 샘 올트먼에 따르면 OpenAI는 이런 추론 모델에 고유한 유형의 환각을 개선하는 방법을 연구, 회사 내부적으로 상당한 성과를 거두었다고 Hard Fork 인터뷰에서 밝히기도 했다.[13] 파일:634CE7C6-949F-4C56-8761-96A172702207.jpg[14] 참고로 이전 문서에서는 팔란티어 테크놀로지스의 AIP도 목록에 있었는데, 잘못된 서술이다. 이 AIP라는 것은 모델 중립적(model agnostic)인 데이터 엔지니어링 플랫폼에 불과하며, 팔란티어 테크놀로지스는 독자적인 언어모델 개발을 하지 않고 있다.[15] 지명도 높은 서비스인 Perplexity만 봐도 이용자 대부분이 Perplexity가 독자개발한 모델보다는 해당 플랫폼이 지원하는 유명 모델들을 주로 사용한다[16] 2023년 4월부터 아마존 웹 서비스를 통해 제공하고 있다.[17] 예를 들어서 OpenAIGPT-4를 일부 파트너들에 한정하여 독점 공급하고 있다. Quora의 Poe라는 챗봇의 유료 버전은 GPT-4를 기반으로 동작한다.[18] 한국인 거의 다수가 LLM을 지칭할 때 '챗지피티' 또는 '지피티'라는 용어를 쓰기에 보통명사화된 고유명사라 보아도 무방하다.