나무모에 미러 (일반/어두운 화면)
최근 수정 시각 : 2026-03-10 16:28:38

BERT


이 문서는 토막글입니다.

토막글 규정을 유의하시기 바랍니다.


BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
<colbgcolor=#646464><colcolor=#fff> 논문 저자 Jacob Devlin
분야 NLP
발표 년도 2018
논문 링크


1. 개요2. 활용

1. 개요

BERT는 구글에서 개발한 자연어 처리 모델이다. Transformer 구조에 Encoder를 여러 층 쌓은 모델이다.

학습은 다음 문장 예측(Next Sentence Prediction (NSP))과 문장의 가려진 단어 예측(Masked Language Modeling (MLM))으로 학습된다.

GPT와 함께 대표적인 트랜스포머 활용 구조로 알려져 있다.

흔히 비교되는 GPT와는 구조적 지향점이 다르다. GPT가 이전 단어들을 바탕으로 다음 단어를 생성하는 디코더(Decoder) 중심의 생성 모델(Generative)이라면, BERT는 문장 속 단어들 사이의 관계를 파악하는 인코더(Encoder) 중심의 이해 모델(Understanding)이다. 이로 인해 BERT는 챗봇과 같은 문장 생성보다는 텍스트 분류, 질문에 대한 답 찾기, 문장 간 유사도 측정 등에서 특히 강점을 보인다. 이러한 성능은 문맥을 좌우 양방향(Bidirectional)으로 동시에 파악하는 구조적 특징 덕분이며, 기존 모델들이 가졌던 단방향 처리의 한계를 혁신적으로 극복했다는 평가를 받는다. 발표 당시 NLP 분야의 주요 벤치마크 기록을 모두 갈아치우며 자연어 처리의 패러다임을 '사전 학습 후 미세 조정(Fine-tuning)' 방식으로 완전히 전환시킨 기념비적인 모델이다.

2. 활용