나무모에 미러 (일반/어두운 화면)
최근 수정 시각 : 2025-05-05 11:47:44

확산 모델

디퓨전 모델에서 넘어옴

1. 개요2. 역사3. 원리
3.1. 확산 과정(Forward Process)3.2. 역확산 과정(Reverse Process)
4. 특징
4.1. 장점4.2. 단점
5. 주요 모델6. 응용

1. 개요

확산 모델의 원리. Depth First의 영상이다.
Diffusion Model

확산 모델은 생성형 모델의 한 종류로 비지도학습 방식으로 데이터 분포를 학습하며 새로운 데이터 생성에 사용된다. 특히 이미지나 오디오 같은 복잡한 데이터 생성 분야에서 뛰어난 성능을 보여준다. 최근 인공지능 분야에서 가장 주목받는 기술 중 하나로 데이터에 점진적으로 노이즈를 추가하는 확산 과정(Forward Process)와 노이즈로부터 원본 데이터를 복원하는 역확산 과정(Reverse Process)을 통해 학습하는 것이 핵심 원리다.

2. 역사

2015년 솔 딕스타인(Sohl-Dickstein)연구진이 비평형 열역학과 관련지어 처음 그 개념을 제시하였지만 한동안은 GAN이나 VAE에 밀려 큰 주목을 받지 못했다. 반전의 계기가 된 것은 2020년 구글 브레인의 조너선 호(Jonathan Ho)와 그의 동료들이 발표한 DDPM. DDPM이 전에 없던 뛰어난 이미지 생성 성능을 보여주면서 확산 모델은 폭발적인 관심을 받기 시작했다. 이후 샘플링 속도 개선, 조건부 생성 등 다양한 방향으로 빠르게 발전하며 생성형 모델 분야의 주류 기술 중 하나로 자리매김했다.

3. 원리

확산 모델의 작동 원리는 크게 두 단계로 나뉜다

3.1. 확산 과정(Forward Process)

원본 데이터에서 시작해 정해진 스케줄에 따라 점진적으로 가우시안 노이즈를 추가한다. 이 과정을 여러 단계 반복하면 충분히 많은 단계를 거쳐 원본 데이터 형태는 사라지고 결국 순수한 가우시안 노이즈와 구별할 수 없게 된다. 이 확산 과정 자체는 미리 정의된 확률 과정으로 모델이 학습할 필요는 없고, 데이터가 노이즈로 변해가는 수학적 경로를 제공한다.

3.2. 역확산 과정(Reverse Process)

확산 모델 학습의 핵심 단계이다. 순수한 가우시안 노이즈에서 시작하여 확산 과정을 거꾸로 거슬러 올라간다. 즉, 노이즈 상태에서 점진적으로 노이즈를 제거하며 원본 데이터 분포에 속하는 새로운 데이터를 생성하는 것이 목표이다.

보통 U-Net 구조를 사용하여 각 단계에서 추가된 노이즈를 예측하도록 학습시키는데, 모델은 노이즈 예측값을 이용해 이전 단계의 덜 노이즈 낀 상태를 추정한다. 이 과정을 계속 반복하면서 최종적으로 깨끗한 데이터 샘플을 얻을 수 있으며 수많은 데이터와 노이즈 단계 쌍을 통해 노이즈 예측 능력을 정교하게 학습할 수 있게 된다.

4. 특징

4.1. 장점

4.2. 단점

5. 주요 모델

6. 응용

확산 모델은 다양한 분야에서 활용된다

[1] DALL·E 1의 경우 VAE자기회귀모델의 조합이며 확산 모델 기반이 아니다