Multimodal Model
1. 개요
멀티모달 모델(Multimodal Model)은 텍스트, 이미지, 오디오, 비디오 등 다양한 유형의 데이터(모달리티)를 함께 고려하여 서로의 관계성을 학습 및 처리하는 인공지능이다. 이 중 상대적으로 크기가 큰 모델을 "거대 멀티모달 모델" 혹은 "대형 멀티모달 모델(LMM(Large Multimodal Model))"이라고 부른다.2. 종류
멀티모달 모델은 크게 Early Fusion, Late Fusion, Joint Fusion 3가지로 나뉜다. #2.1. Early Fusion
Early Fusion은 종류가 다른 두 가지 데이터를 하나의 데이터로 먼저 합친 이후 모델 학습을 시키는 경우다. 이 때 형식이 다른 두 데이터를 합치기 위해서는 다양한 데이터 변환이 이루어진다. 원시데이터를 그대로 융합해도 괜찮고, 전처리를 한 이후에 융합해도 상관없다.2.2. Late Fusion
Late Fusion은 종류가 다른 두 가지 데이터를 각각 다른 모델에 학습시킨 이후 나온 결과를 융합하는 방법으로, 기존의 앙상블모델이 작동하는 방식과 비슷하다.2.3. Joint Fusion
Joint Fusion은 두개의 모달리티 데이터를 동시에 학습시키지 않고 내가 원하는 모델의 깊이에서 모달리티를 병합할 수 있는 유연성을 가지고 있다. 하나의 모달리티로 모델학습을 진행하다가 모델학습의 마지막 레이어 전에 다른 모달리티와 융합하는 방법으로, 이 과정을 end-to-end learning이라고도 한다.
3. 언어 모델과 멀티모달 모델의 차이점
언어 모델과 멀티모달 모델의 차이점은 다음과 같다.- 언어모델은 텍스트 데이터 처리와 생성에 특화돼 있다. 본질적으로는 텍스트 외의 데이터는 처리하지 않으며, 텍스트 외의 데이터를 처리하는 멀티모달 기능을 언어모델에서 사용하기 위해서는 text to image나 text to audio 등 다른 유형의 데이터를 학습한 모델을 불러와야 한다.
반면 멀티모달 모델은 다양한 형식의 데이터를 통시에 학습한다. 따라서 하나의 모델에서 여러 가지 데이터 입출력을 받아들일 수 있으며, 이에 따라 언어모델보다 더 우수한 품질의 멀티모달 기능을 사용할 수 있다. - 멀티모달 모델은 다양한 유형의 데이터에 대한 정보를 이해하고 통합해야 하는 작업에 주로 사용된다. 반면 언어모델은 주로 텍스트 중심의 작업에 사용된다.
- 멀티모달 모델은 언어모델에 비해 더 다양한 데이터 유형을 받아들일 수 있으므로 활용도가 더 높다.
4. 멀티모달 러닝
멀티모달 러닝(또는 멀티모달 학습)은 멀티모달 모델을 학습시키는 방법이다. 멀티모달 러닝은 다양한 유형의 데이터(모달리티)를 조합하여 사용하는 딥 러닝의 한 유형이라고 볼 수 있다. 멀티 모달 러닝의 학습 데이터는 '텍스트와 pixel intensity(화소 강도) 및 주석 태그로 구성된 이미징 데이터를 결합한 데이터'와 같이 다양한 유형의 데이터가 결합되어 있다. 이러한 유형의 학습 데이터는 근본적으로 일반적인 한 가지 유형의 데이터로만 이루어진 다른 데이터들과는 다른 통계적 특성을 가지고 있기 때문에 이를 결합하는 것은 간단하지 않아 구현에 상당히 고도화된 전문 지식 및 방법이 필요하다.아래 문단들은 몇가지 멀티모달 러닝의 방법에 관한 내용이다.
4.1. VLM(Vision-Language Model)
VLM(vision-langauge model, visually conditioned langauge model)은 자연어와 이미지 인풋을 모두 받아들이는 모델이다. 생성 모델일 수도 있으나 VLM중 생성형 모델 아키텍처에 가장 많이 활용되는 모델 중 하나인 CLIP은 그 자체로는 생성 모델은 아니며, 듀얼 인코더 구조를 가진 판별 모델의 일종이다.4.1.1. CLIP
#!if (문단 == null) == (앵커 == null)
를
#!if 문단 != null & 앵커 == null
의 [[CLIP#s-|]]번 문단을
#!if 문단 == null & 앵커 != null
의 [[CLIP#|]] 부분을
참고하십시오.CLIP은 OpenAI에서 개발한 언어-이미지 멀티모달 AI 모델로 대규모 웹 언어-이미지 병렬 데이터셋에서 언어와 이미지 간의 상호 작용을 학습하는 방식으로 구성되어 있다. CLIP을 이용하면 텍스트 입력 만으로도 주어진 정보에 해당하는 이미지 정보를 얻어내어 활용할 수 있으며, 반대로 이미지 입력에서 원하는 텍스트 정보를 추출할 수 있다.
4.1.2. SigLIP
구글 리서치에서 발표한 SigLIP(Sigmoid-based Language-Image Pre-training)은 SigLIP은 CLIP의 기본적인 아이디어를 계승하면서도 학습 방식의 혁신을 통해 효율성과 성능을 한 단계 끌어올린 모델이라고 할 수 있다.SigLIP은 CLIP과 마찬가지로 대규모 이미지-텍스트 쌍을 학습하여 두 데이터 간의 의미론적 유사성을 파악하는 것을 목표로 한다. 차이점은 CLIP은 학습 과정에서 주어진 이미지에 가장 적합한 텍스트 설명을 찾기 위해 배치 내의 모든 이미지-텍스트 쌍을 비교하는 대조 학습(contrastive learning) 방식을 사용하지만 SigLIP은 각 이미지-텍스트 쌍에 대해 독립적으로 시그모이드(sigmoid) 함수를 적용해 해당 쌍이 얼마나 잘 매칭되는지를 직접 예측한다. 대조학습은 효과적이기는 하지만 배치 크기가 커질수록 계산량이 기하급수적으로 증가하는 단점이 있었다. SigLIP은 활성화 함수를 갈아끼움으로서 이 복잡한 비교 과정을 단순화시킨 것.
SigLIP은 CLIP에 비해 훨씬 더 큰 배치 크기로 학습할 수 있게 되어 학습 효율성을 크게 향상되었다. 그리고 전역적인 비교 대신 지역적인 예측에 집중함으로써 학습 목표가 단순해지고, 이는 종종 더 나은 성능으로 이어지기도 한다. 실제로 여러 벤치마크에서 SigLIP은 CLIP과 유사하거나 더 우수한 성능을 보이면서도 학습 속도는 훨씬 빠른 결과를 보여주었다. 특히, 제로샷(zero-shot) 이미지 분류 작업, 즉 모델이 한 번도 보지 못한 새로운 카테고리의 이미지를 분류하는 능력에서 강점을 나타낸다.
SigLIP은 학습에 사용되는 데이터의 정제 수준에 덜 민감하다는 특징도 있다. CLIP이 고품질의 정제된 데이터에 의존하는 경향이 있는 반면, SigLIP은 상대적으로 노이즈가 많은 웹 규모의 데이터셋에서도 준수한 성능을 유지한다. SigLIP을 사용하면 대규모 데이터셋 구축 비용을 절감하고 더 다양한 데이터 소스를 활용할 수 있는 이유다.
4.1.3. VQA
VQA는 Vision Question Answering의 약자로, 입력 모달리티인 이미지와 관련된 질문에 대한 답을 자연어로 출력해 주는 작업이다.- fine-grained recognition
- 이 파스타에 있는 소스가 어떤 종류인가
- commonsense reasoning
- 안경을 쓴 남자가 나온 사진 - 이 남자는 시력이 좋은가
- knowledge base reasoning
- 고기가 있는 파스타 사진 - 이 파스타는 비건 파스타인가
- activity recognition, object detection
4.1.4. Zero-Shot Learning
입력 이미지와 입력 이미지와의 유사도를 측정하고 싶은 텍스트 여러 개를 함께 모델에 입력하여, 해당 이미지와 가장 유사도가 높은 텍스트를 고르는 작업이다.4.2. VLA(Vision-Language-Action Model)
#!if (문단 == null) == (앵커 == null)
를
#!if 문단 != null & 앵커 == null
의 [[인공지능 로봇#s-5|5]]번 문단을
#!if 문단 == null & 앵커 != null
의 [[인공지능 로봇#|]] 부분을
참고하십시오.VLA(vision language action model)은 비전 및 자연어, 액션 데이터를 인풋으로 받아 액션 토큰을 아웃풋으로 산출하는 인공 신경망 모델을 말한다.
4.3. 다중 모달리티
4.3.1. ImageBind
Meta에서 발표한 ImageBind는 하나의 모델로 6개의 모달리티[1]를 처리할 수 있다. 텍스트 대신 이미지를 핵심 모달리티로 설정하여 학습시켰다. 6개의 모달리티를 동시에 활용하는 것이 아니라, 이미지-텍스트, 이미지-오디오와 같이 이미지와의 유사성을 높이는 방법으로 학습을 한다.
4.3.2. Meta Transformer
각 모달리티에 해당하는 데이터를 연속된 시퀀스 형태로 변환하는 Tokenizer (Data-to-sequence tokenizer)를 적절히 학습하여 하나의 모델로 처리한다.5. 멀티모달 모델의 필요성
- 텍스트를 입력하고 텍스트로 답하는 LLM보다 다양한 모달리티로 입력하고 답하는 LMM의 활용 폭이 훨씬 넓다.
- 인공지능 로봇의 필수적인 요소로 떠오르며, 앞으로 개발될 미래형 로봇에 들어갈 핵심 기능이 되었다.
- 결국 언어 모델에 비해 활용도가 높고 할 수 있는 것들도 훨씬 많기 때문에, 전체 생성형 인공지능 모델 중에서 차지하는 비중이 점점 증가할 것이다.
- 멀티모달 모델은 단순히 공업이나 산업 분야 뿐만이 아니라 우리의 일상생활에도 큰 도움을 준다. 예를 들어, 질병 진단 시 AI가 텍스트와 의료 영상을 동시에 분석함으로써, 이전에는 어려웠던 진단을 더 정확하고 신속하게 해낼 수 있다.
6. 현황
6.1. 미국
구글에서 멀티모달 모델인 Gemini를 내놓는 한편, OpenAI에서 GPT-4모델에 이미지 기능을 추가한 GPT-4V 모델을 내놓는 등 해외 대기업 및 인공지능 업계 선두주자들은 대부분 멀티모달 모델 개발에 뛰어들고 있다. 멀티모달 모델의 수요가 지속적으로 증가하는 만큼 멀티모달 모델 개발 경쟁은 더욱 가속화될 것으로 보인다.
6.2. 한국
국내에서도 LG 액사원이 개발되는가 하면, 네이버의 HyperCLOVA X에 멀티모달 기능이 추가되는 등 멀티모달 인공지능 분야에 점점 관심을 가지고 있는 추세이다. 하지만 국내 멀티모달 모델들은 자금력의 차이, 언어별 데이터세트의 크기 차이 등의 문제로 미국, 중국 개발사의 모델들에 비해 아직 성능 면에서 뒤쳐지는 것이 현실이다.7. 주요 멀티모달 모델
8. 비판 및 문제점
8.1. 저작권 문제
멀티모달 모델은 다양한 유형의 데이터(이미지, 동영상, 텍스트 등)를 필요로 한다. 성능을 높이기 위해서는 이러한 데이터를 최대한 많이 수집하여 학습시켜야 한다. 따라서 저작자의 동의 없이 동영상이나 이미지 파일을 학습하는 등 모델 학습 과정에서 상당한 양의 저작권 침해가 이루어질 우려가 있다.8.2. 편향성
멀티모달 모델은 언어모델과 같은 모델에 비해 편향적일 가능성이 훨씬 크다. 학습 과정에서 편향적인 데이터가 들어갈 경우 모델 또한 편향적인 결과를 내놓을 가능성이 높다.실제로 구글의 멀티모달 모델인 Gemini는 지나치게 PC주의적인 결과물로 많은 논란을 빚었다.
[1] 이미지, 텍스트, 오디오, 깊이맵, thermal, IMU