나무모에 미러 (일반/어두운 화면)
최근 수정 시각 : 2024-01-28 23:40:09

트랜스포머(인공신경망)

1. 개요2. 구조3. 작동 원리4. 파급력5. 비판 및 논란6. 연관 문서

1. 개요

2017년 NIPS에서 'Attention Is All You Need'라는 논문을 통해 발표되었다. 병렬처리가 어려워 학습 속도가 느리던 RNN의 한계를 극복함에 따라 자연어 처리 분야에서 상당한 수준의 퍼포먼스를 보여주었다.

처음엔 자연어 처리 분야에서만 사용되었으나 이후 컴퓨터 비전 분야까지 확장됐으며 현재는 다양한 분야에서 채택되고 있다.

트랜스포머의 등장 이전에는 LSTM이나 GRU같은 RNN 알고리즘이 가장 최신의 딥러닝 모델이었다.

2. 구조

파일:transformer_ANN_model_structure.png

트랜스포머의 구조는 크게 위치 인코딩, 멀티헤드 어텐션, FFN으로 이루어져있다.

위치 인코딩으로 위치 정보를 파악해서 멀티헤드 어텐션으로 집중을 하고, 그 결과를 FFN으로 학습하는 구조를 가지고 있다.

3. 작동 원리

파일:상세 내용 아이콘.svg   자세한 내용은 Attention Is All You Need 문서
번 문단을
부분을
참고하십시오.

4. 파급력

트랜스포머 모델 Inference 전용 비즈니스인 HuggingFace가 생길 정도로 큰 파급력을 미쳤다.

관련 업계 및 커뮤니티에서는 '일단 트랜스포머를 박으면 성능이 올라간다'는 말이 공연히 돌 정도로 인공지능계의 무안단물 취급을 받으며 승승장구하고있다.


BERT, GPT-3, AlphaFold 2 등이 Transformer 기반으로 만들어졌다.

5. 비판 및 논란

기업과 연구기관별로 트랜스포머를 활용하는 방식이 제 각각이며 2020년대에 들어서는 그 방식에 한계에 도달했다는 의견이 존재한다. 예시로 GPT-4의 상세 정보가 외부에 공개되진 않았지만, ChatGPT의 기반인 GPT-3.5매개변수 차이가 월등하게 나는데도 그것에 비례적인 성능 향상이 체감되지 않았다. 또한 모델의 성능을 비교하는 것 조차 여전히 Elo 레이팅으로 진행한다는 것 또한 비판 받는 부분이다.

파일:93F3F2AC-4342-4680-8451-382C76BE1A6A.jpg
파일:2444C182-DCAF-4ABA-8CA8-ADE785914370.jpg

조지 호츠라는 해커의 주장에 따르면 2,200억 개의 파라미터를 분야별로 8개의 모델에 나누어 훈련시키고 게이트를 통해 가중치를 조정하는 방식의 MoE(Mixture of Experts)라는 구조로 파라미터가 1조 개인 척 트릭을 썼다고 주장한다. 그의 말이 사실이라면, GPT-3와 GPT-4의 차이는 파라미터 개수가 아니라 MoE 구조의 유무 차이므로 트랜스포머 방식의 한계가 점차 드러나는 상황이라는 것을 유추해 볼 수 있다.#

실제로 2023년 7월부터 제기된 ChatGPT의 성능 저하가 MoE 구조로 인해 벌어진 게 아니냐는 의견이 나타나기 시작했다.#

6. 연관 문서

Attention Is All You Need