[김원혁] Multimodal Unsupervised Image-to-Image Translation

Multimodal Unsupervised Image-to-Image Translation (MUNIT)

https://arxiv.org/pdf/1804.04732

저자: Xun Huang, Ming-Yu Liu, Serge Belongie, Jan Kautz

1. Introduction

Unsupervised Image-to-Image Translation (UNIT)

https://arxiv.org/pdf/1703.00848

소스 도메인의 이미지가 주어졌을 때, 해당 이미지 쌍의 예시를 보지 않고 타겟 도메인에 해당하는 이미지들의 조건부 분포를 학습

기존 모델들의 한계

기존 CycleGAN이나 UNIT은 입력과 출력이 1:1로 대응되는 결정론적(deterministic) 출력만이 가능함

즉, 하나의 입력 이미지에는 이미지 변환이 된 하나의 출력 이미지가 나온다.

→ 현실의 Multimodality 반영 불가

예시)

동일한 겨울 풍경 사진을 여름 도메인으로 바꾼다고 했을 때, 실제 현실에서는 날씨, 시간, 조명에 따라 무수히 많은 여름의 모습(Multimodal)이 존재할 수 있음

하지만 기존 모델은 매번 똑같은 하나의 여름 이미지(Unimodal/Deterministic)만 출력. 노이즈를 주입해도 네트워크가 이를 무시.

⇒ MUNIT: UNIT을 Multimodal로의 변환이 가능하도록 구현해보자

2. MUNIT Model

Assumption (핵심 아이디어)

UNIT 가정: source domain과 target domain간에는 공유하고 있는 latent space가 존재

- MUNIT은 이미지의 잠재 공간(latent space)을 콘텐츠 공간(content space), 스타일 공간(style space)로 분해될 수 있다 가정

- 서로 다른 도메인의 이미지가 콘텐츠 공간은 공유, 스타일 공간은 공유하지 않는다

→ 이미지 변환 시, 보존해야 할 정보는 content code에 인코딩. 도메인 별 속성 정보는 style code에 인코딩

→ style code를 바꿔줌으로서 자세는 동일하지만 다양한 형태를 띄고 있는 출력물 생성

예시) 겨울 풍경 사진 → 여름 풍경 사진 (동일한 배경)

content code: 길거리 구조, 건물 등
style code: 눈이 쌓여 있는 모습 등

Model 학습과정

(a) 도메인 내부 재구성과 (b) 도메인 간 교차 번역 두 가지 과정으로 나뉨

(a) Within-domain reconstruction (도메인 내부 재구성) 모델이 자기 도메인의 이미지를 완벽하게 분해하고 다시 조립할 수 있는지 학습하는 단계

1. 실제 도메인 1의 이미지 $x_1$을 입력받아 각각의 인코더를 통해 내용 코드 $c_1$과 스타일 코드 $s_1$을 추출합니다.  

2. 분리된 $c_1$과 $s_1$을 디코더에 통과시켜 다시 복원된 이미지 $\\hat{x}_1$을 만들어냅니다.

3. 원본 이미지와 복원된 이미지 사이의 차이를 줄이는 **Image Reconstruction Loss**가 적용됩니다.

(b) Cross-domain translation (도메인 간 교차 번역) 실제 우리가 원하는 "Multimodal 이미지 번역"과 "코드 보존"이 일어나는 핵심 단계

1. 도메인 1 이미지 $x_1$에서 content($c_1$)만 추출합니다.  

2. 도메인 2의 스타일($s_2$)은 도메인 2의 실제 이미지에서 가져오는 대신, 표준정규분포(Gaussian Prior)에서 **무작위로 샘플링**합니다.

3. $c_1$과 무작위로 뽑은 $s_2$를 도메인 2의 디코더(파란색 화살표)에 결합하여 새로운 이미지 $x_{1\\to2}$를 생성합니다. 스타일 코드를 매번 다르게 뽑아주기 때문에 이 단계에서 **Multimodal(다양한 결과)** 출력이 가능해집니다.  

4. 여기서 끝내지 않고, 생성된 가짜 이미지 $x_{1\\to2}$를 다시 도메인 2의 인코더에 넣어 내용과 스타일($\\hat{c}_1, \\hat{s}_2$)을 다시 추출(Encode)해냅니다.

• 적용되는 Loss:

◦ **GAN loss**: 생성된 이미지가 실제 도메인 2의 이미지처럼 정교해야 하므로, 도메인 2의 Discriminator를 속이도록 GAN loss를 부여합니다.  

◦ **Latent Reconstruction Loss** : 새로 추출된 $\\hat{c}_1$은 원본의 $c_1$과 같아야 하고, $\\hat{s}_2$는 가우시안 Prior에서 뽑았던 $s_2$와 같아야 합니다. 이 장치 덕분에 디코더가 스타일 코드를 무시하지 않고 이미지에 강제로 반영하게 됩니다.