나무모에 미러 (일반/어두운 화면)
최근 수정 시각 : 2025-10-09 06:35:47

확산 모델

디퓨전 모델에서 넘어옴

생성형 인공지능
관련 문서
{{{#!wiki style="margin: 0 -10px -5px; min-height: calc(1.5em + 5px)"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -5px -1px -11px"
<colbgcolor=#f5f5f5,#2d2f34> 종류 대화형 인공지능 (주요 목록) · 코드 생성 인공지능 · 그림 인공지능 · 영상 인공지능 · 음향 인공지능 · 3D 모델링· 지능형 에이전트 · VLA · 멀티모달 모델 · 언어 모델 · 월드 모델
프롬프트 프롬프트 · 프롬프트 엔지니어링 · 프롬프트 해킹
아키텍처 트랜스포머 · GAN · 확산 모델 · 변분 오토인코더 · 자기회귀모델
학습 자기지도학습 · 강화학습 (RLHF)
응용 인공지능 검색 엔진 · 바이브 코딩 · 인공지능 로봇 (테슬라 옵티머스) · AI 신약개발
밈/유행 쇼거스 · AI 커버 · 창팝 · ChatGPT 지브리풍 이미지 생성 유행 · Italian Brainrot
기타 AI 슬롭 · AI wrapper · 인공지능 환각 · 인공지능 벤치마크 · MCP · 대중화 · 인공 일반 지능 · 인공지능 정렬 · Spiritual bliss attractor }}}}}}}}}

1. 개요2. 역사3. 원리
3.1. 확산 과정(Forward Process)3.2. 역확산 과정(Reverse Process)
4. 특징
4.1. 장점4.2. 단점
5. 주요 모델6. 플로우 매칭7. 응용

1. 개요

확산 모델의 원리. Depth First의 영상이다.
Diffusion Model

확산 모델은 생성형 모델의 한 종류로 비지도학습 방식으로 데이터 분포를 학습하며 새로운 데이터 생성에 사용된다. 특히 이미지나 오디오 같은 복잡한 데이터 생성 분야에서 뛰어난 성능을 보여준다. 최근 인공지능 분야에서 가장 주목받는 기술 중 하나로 데이터에 점진적으로 노이즈를 추가하는 확산 과정(Forward Process)와 노이즈로부터 원본 데이터를 복원하는 역확산 과정(Reverse Process)을 통해 학습하는 것이 핵심 원리다.

2. 역사

2015년 솔 딕스타인(Sohl-Dickstein)연구진이 비평형 열역학과 관련지어 처음 그 개념을 제시하였지만 한동안은 GAN이나 VAE에 밀려 큰 주목을 받지 못했다. 반전의 계기가 된 것은 2020년 구글 브레인의 조너선 호(Jonathan Ho)연구진이 발표한 DDPM. DDPM이 전에 없던 뛰어난 이미지 생성 성능을 보여주면서 확산 모델은 폭발적인 관심을 받기 시작했다. 이후 샘플링 속도 개선, 조건부 생성 등 다양한 방향으로 빠르게 발전하며 생성형 모델 분야의 주류 기술 중 하나로 자리매김했다.

3. 원리

확산 모델의 작동 원리는 크게 두 단계로 나뉜다

3.1. 확산 과정(Forward Process)

원본 데이터에서 시작해 정해진 스케줄에 따라 점진적으로 가우시안 노이즈를 추가한다. 이 과정을 여러 단계 반복하면 충분히 많은 단계를 거쳐 원본 데이터 형태는 사라지고 결국 순수한 가우시안 노이즈와 구별할 수 없게 된다. 이 확산 과정 자체는 미리 정의된 확률 과정으로 모델이 학습할 필요는 없고, 데이터가 노이즈로 변해가는 수학적 경로를 제공한다.

3.2. 역확산 과정(Reverse Process)

확산 모델 학습의 핵심 단계이다. 순수한 가우시안 노이즈에서 시작하여 확산 과정을 거꾸로 거슬러 올라간다. 즉, 노이즈 상태에서 점진적으로 노이즈를 제거하며 원본 데이터 분포에 속하는 새로운 데이터를 생성하는 것이 목표이다.

보통 U-Net 구조를 사용하여 각 단계에서 추가된 노이즈를 예측하도록 학습시키는데, 모델은 노이즈 예측값을 이용해 이전 단계의 덜 노이즈 낀 상태를 추정한다. 이 과정을 계속 반복하면서 최종적으로 깨끗한 데이터 샘플을 얻을 수 있으며 수많은 데이터와 노이즈 단계 쌍을 통해 노이즈 예측 능력을 정교하게 학습할 수 있게 된다.

4. 특징

확산 모델과 GAN, VAE의 비교
대체로 그림과 영상에서는 VAEGAN과 비교되는 일이, 자연어 처리에서는 자기회귀모델과 비교되는 일이 많다

4.1. 장점

확산 모델들은 현존하는 생성 모델 가운데 가장 높은 수준의 데이터 품질을 보여준다 특히 이미지영상 생성 분야에선 매우 사실적이고 세밀한 결과물을 만들어낸다.
안정적인 학습이 가능하다는 장점도 있다. 생성적 적대 신경망과 비교했을 때 학습 과정이 훨씬 안정적이며, GAN의 고질적인 문제인 모드 붕괴(Mode Collapse) 현상이 잘 발생하지 않는다. 데이터 분포의 다양한 모드를 잘 학습해 생성되는 결과물의 다양성 또한 높은 편이다.

4.2. 단점

새로운 샘플 하나를 얻기 위해 역확산 과정을 수백에서 수천 단계에 걸쳐 반복해야 하므로 추론 속도가 느리다. 그러다보니 모델 학습과 데이터 생성 모두에 상당한 수준의 계산 자원이 필요해 고성능 GPU의 사용이 필수적이다.[1]
나아가 VAEGAN처럼 명시적인 잠재 변수를 사용하는 모델과 달리 확산 모델의 중간 단계에 존재하는 노이즈는 인간이 직관적으로 의미를 해석하기 어려워 잠재 공간에 대한 분석이 복잡하다는 한계도 있다.

5. 주요 모델

6. 플로우 매칭

확산 모델과 수학적으로 동등(mathmatically equivalent)한 방법론으로 '플로우 매칭(Flow matching)이라는 것이 있다. [2] 2022년 말에 처음 제안되었으며, 특히 야론 립맨(Yaron Lipman)연구팀의 조건부 플로우 매칭(Conditional Flow Matching, CFM)논문을 통해 본격적으로 알려졌다.

다만, 플로우 매칭 기법의 학문사적 기원 자체는 확산 모델과 다르다. 정규화 흐름(Normalizing flow)과 그 응용형인 연속 정규화 흐름(Continuous Normalizing Flows, CNF)[3]을 바탕으로 하고 있기 때문.

플로우 매칭의 핵심 아이디어는, 복잡하고 느린 확산 모델의 확률적 과정(Stochastic Process) 대신, 단순하고 결정론적인 흐름(Flow)을 통해 노이즈를 데이터로 변환하는 방법을 학습하는 것이다. 학습의 안정성과 속도를 크게 향상시키면서도 고품질의 결과물을 생성할 수 있어, GAN, VAE, 확산 모델의 장점들을 결합한 대안으로 주목받고 있다.

플로우 매칭을 적용할 때에는 학습과 추론에 있어서 디퓨전 모델과 별개의 아키텍처를 사용할 필요가 없는데다, 많은 분야에서 더 뛰어난 성능을 발휘해 널리 적용되고 있다.

7. 응용

20년대 중반 기준 확산 모델은 생성적 적대 신경망, 변분 오토인코더등을 제치고 그림, 영상 생성의 지배적인 패러다임으로 자리매김 했다. 자기회귀모델과 함께 생성형 인공지능 시장을 양분하고 있으며 그 적용 범위도 날로 커지고 다양해지는 상황이다.

[1] 다만 이는 비슷한 규모의 GAN이나 VAE와 비교한 내용이며 자기회귀모델과 비교해서는 상황에 따라 다르지만 오히려 빠를 수도 있다.[2] 사실 확산 모델 자체가 가우시안 플로우 매칭(Gausian Flow matching)과 같은 것이다.[3] 요슈아 벤지오와 데이비드 던컨이 2018년에 제안했다.[4] DALL·E 1의 경우 VAE자기회귀모델의 조합이며 확산 모델 기반이 아니다