1. 개요
生成的敵對神經網 / Generative Adversarial Network |
대표적인 GAN 관련 모델인 StyleGAN을 통해 만든 인물 이미지. |
심층학습의 기법을 이용해 임의의 랜덤 노이즈로부터[1] 가상의 데이터를 생성하는 네트워크(생성자: Generator, G)가 더 실제와 같은 데이터를 생성할 수 있도록 진위 여부를 판별할 수 있는 네트워크(구별자: Discriminator, D)를 붙여 경쟁적으로 학습시키는 생성 모델. 생성적 적대 신경망이라는 용어는 직역된 표현으로, 다소 의역된 표현인 적대적 생성 신경망이란 표현도 많이 사용된다.
주로 GAN이라는 축약어를 사용하며, 2014년 Ian Goodfellow의 논문을 통해 처음 발표되었다. 기본적으로 비지도 학습(Unsupervised Learning)의 한 종류지만 파생 방법인 조건부 생성적 적대 신경망(Conditional GAN, cGAN)은 지도학습(Supervised Learning)에 활용될 수도 있다.
이미지를 생성하는 모델은 딥페이크에 사용되기도 한다.
두 가지 네트워크를 동시에 경쟁적으로 학습시킨다는 점에서 학습이 굉장히 불안정하고, 그만큼 대규모 데이터셋으로 학습시키기 힘들다는 단점이 존재한다. 이러한 한계에 부딪혀 자연어 프롬프트로부터 이미지를 생성하는 text-to-image 분야에서는 두각을 보이지 못했고[2], 또다른 생성 모델의 한 갈래인 디퓨전 모델이 2022년 기준으로 Stable Diffusion을 비롯한 여러 text-to-image 모델들을 통해 눈부신 발전을 이루면서 상대적으로 주목을 덜 받게 되었다.
그러나 상대적으로 규모가 작은 데이터셋에서는 여전히 좋은 성능을 발휘하며, 태생적으로 아무리 못해도 수십 번의 네트워크 연산이 필요한 디퓨전 모델에 비해 단 한 번의 네트워크 연산만으로 데이터 생성이 가능하므로 효율면에서 월등히 유리하다는 장점도 있다.
이러한 이유 때문에 현재 제일 자주 쓰이는 분야는 이미지 생성 분야가 아닌 음성합성 분야이다. 기본적으로 음성데이터는 멜스펙트로그램이라는 시간과 주파수를 축으로 삼는 2차원 데이터로 표현이 되는데, 이로부터 실제 우리가 듣는 음성데이터를 합성하는 작업이 바로 음성 합성이다. 이 분야에서 뛰어난 성능을 가진 많은 모델들이 이 GAN을 기반으로 하여 만들어졌다.
2. 관련 웹사이트
- ARTBREEDER - 특정한 이미지 조합 및 변수 주입으로 이미지를 자동 생성, 앨범아트, 인물, 풍경, 모에 그림 등의 옵션을 제공한다. 구글 등을 경유한 로그인 필요.
- Waifu Labs - 각 단계별로 유사한 이미지를 참조해 하술한 This Waifu Does Not Exist에 비교해 그럴싸한 모에 그림체 포트레이트를 생성해준다.
- 침착한 생성모델(깃헙) - 인물 사진을 이말년풍으로 해석해준다.
- ArcaneGAN - 인물 사진을 아케인: 리그 오브 레전드의 화풍으로 변환해 준다.
2.1. This ~ doesn't Exist 시리즈
관련 웹페이지들을 모은 링크집이 있다.- This Person Does Not Exist - 무작위 인물 사진 생성. 이쪽 계열에서는 가장 유명하고 정교도도 비교적 높다. 그러나 역시 헛점은 있으며[3] 딥페이크 티가 드러나는 지점을 정리한 포스트가 존재한다. 모에그림체 GAN만큼은 아니지만 사람 얼굴 옆에 곤죽처럼 기괴하게 된 얼굴이 또 생성된 경우도 많다. 주로 옆에 찍은 사람이 학습모델에 주입되었는데 그게 꼬여버린경우로 추정된다. (혐오주의!)
- This Cat Does Not Exist - 무작위 고양이 사진 생성
- This Waifu Does Not Exist - 모에 그림체 포트레이트를 생성. 인물 이미지는 정교한 수준까지 갔지만 모에 그림체 생성은 다소 어설픈 측면이 남아있다. 간혹 기괴한 시안이 나오기도 한다.
- This Anime Does Not Exist - 모에 그림을 생성. 위에서 발전된거라 말풍선같은 만화 이미지까지 구현하지만, 표현되는 문자는 일본어가 외계어로 왜곡된 수준이다. 창의도(Creativity level)에 따라 인공지능이 참조한 이미지가 겹치거나 변하는 것처럼 보이는 스냅이 잡혀서 기괴해 보이는 경우가 많다.[4]
- This Pony Does Not Exist - MLP풍 포트레이트 생성
- This Fursona Does Not Exist - 수인캐릭터 포트레이트 생성. 수인농도는 천차만별이다.
가끔씩 주토피아에 나오는 닉 와일드가 보인다. - This Rental Does Not Exist - 무작위의 숙소 방 사진과 가짜 설명을 생성.
- This Startup Does Not Exist - 랜덤한 내용의 가짜 스타트업 기업 페이지를 생성.
- This Artwork Does Not Exist - 무작위의 추상미술을 생성.
- This Automobile Does Not Exist - 무작위의 자동차 사진을 생성. 인물 버금갈정도로 정교도가 그럴싸한 사진이 나오지만 차의 앞뒤가 바뀌거나 분별할 수 없는 뒤죽박죽도 가끔 나온다.
- This City Does Not Exist - 무작위의 도심 항공 촬영사진같은 가상의 지형사진을 생성
- This Map Does Not Exist - 무작위의 지도 사진. 글자는 뭉개져서 인공문자같다.
- This Beach Does Not Exist - 무작위의 해변 풍경 사진 생성.
- This Music Video Does Not Exist - OpenAI Jukebox를 통해 생성된 음악과 추상그림의 변화로 구성된 뮤직비디오 생성.
- This Night Sky Does Not Exist - 무작위의 밤하늘 사진 생성. 지형은 굉장히 어색하다.
- This Wojak Does Not Exist - 무작위의 Wojak풍 얼굴(...)(형체를 알아볼수 없는 기괴한 얼굴이 많이 나온다.)
[1] 주로 정규분포에서 샘플링한다.[2] 단적으로 대중들에게 처음 널리 알려진 text-to-image 모델이라고 할 수 있는 DALL·E의 첫번째 버전도 GAN이 아닌 autoregressive model 기반이었다.[3] 사실 맨 위에 예시로 올린 짤에도 옥에 티 수준으로 위화감이 느껴지는 부분이 아주 조금 있다.[4] 일본의 몇몇 트위터리안을 중심으로 #waifubattle이라는 해시태그 아래 waifulab 및 TADNE에서 아예 이러한 이상하게 도출된 결과물만 모으는 밈도 존재한다(...). 당연히 관람주의. 그 외계어처럼 보이는 문자를 속칭 waifu어라고 한다.