나무모에 미러 (일반/어두운 화면)
최근 수정 시각 : 2025-04-17 23:51:42

생성적 적대 신경망

StyleGAN에서 넘어옴

1. 개요2. 관련 웹사이트
2.1. This ~ doesn't Exist 시리즈

1. 개요

/ Generative Adversarial Network


파일:Woman_1.jpg
대표적인 GAN 관련 모델인 StyleGAN을 통해 만든 인물 이미지.

심층학습의 기법을 이용해 임의의 랜덤 노이즈로부터[1] 가상의 데이터를 생성하는 네트워크(생성자: Generator, G)가 더 실제와 같은 데이터를 생성할 수 있도록 진위 여부를 판별할 수 있는 네트워크(구별자: Discriminator, D)를 붙여 경쟁적으로 학습시키는 생성 모델. 생성적 적대 신경망이라는 용어는 직역된 표현으로, 다소 의역된 표현인 적대적 생성 신경망이란 표현도 많이 사용된다.

주로 GAN이라는 축약어를 사용하며, 2014년 Ian Goodfellow의 논문을 통해 처음 발표되었다. 기본적으로 비지도 학습(Unsupervised Learning)의 한 종류지만 파생 방법인 조건부 생성적 적대 신경망(Conditional GAN, cGAN)은 지도학습(Supervised Learning)에 활용될 수도 있다.

이미지를 생성하는 모델은 딥페이크에 사용되기도 한다.

두 가지 네트워크를 동시에 경쟁적으로 학습시킨다는 점에서 학습이 굉장히 불안정하고, 그만큼 대규모 데이터셋으로 학습시키기 힘들다는 단점이 존재한다. 이러한 한계에 부딪혀 자연어 프롬프트로부터 이미지를 생성하는 text-to-image 분야에서는 두각을 보이지 못했고[2], 또다른 생성 모델의 한 갈래인 디퓨전 모델이 2022년 기준으로 Stable Diffusion을 비롯한 여러 text-to-image 모델들을 통해 눈부신 발전을 이루면서 상대적으로 주목을 덜 받게 되었다.

그러나 상대적으로 규모가 작은 데이터셋에서는 여전히 좋은 성능을 발휘하며, 태생적으로 아무리 못해도 수십 번의 네트워크 연산이 필요한 디퓨전 모델에 비해 단 한 번의 네트워크 연산만으로 데이터 생성이 가능하므로 효율면에서 월등히 유리하다는 장점도 있다.

이러한 이유 때문에 현재 제일 자주 쓰이는 분야는 이미지 생성 분야가 아닌 음성합성 분야이다. 기본적으로 음성데이터는 멜스펙트로그램이라는 시간과 주파수를 축으로 삼는 2차원 데이터로 표현이 되는데, 이로부터 실제 우리가 듣는 음성데이터를 합성하는 작업이 바로 음성 합성이다. 이 분야에서 뛰어난 성능을 가진 많은 모델들이 이 GAN을 기반으로 하여 만들어졌다.

2. 관련 웹사이트

2.1. This ~ doesn't Exist 시리즈

관련 웹페이지들을 모은 링크집이 있다.

[1] 주로 정규분포에서 샘플링한다.[2] 단적으로 대중들에게 처음 널리 알려진 text-to-image 모델이라고 할 수 있는 DALL·E의 첫번째 버전도 GAN이 아닌 autoregressive model 기반이었다.[3] 사실 맨 위에 예시로 올린 짤에도 옥에 티 수준으로 위화감이 느껴지는 부분이 아주 조금 있다.[4] 일본의 몇몇 트위터리안을 중심으로 #waifubattle이라는 해시태그 아래 waifulab 및 TADNE에서 아예 이러한 이상하게 도출된 결과물만 모으는 밈도 존재한다(...). 당연히 관람주의. 그 외계어처럼 보이는 문자를 속칭 waifu어라고 한다.

분류