카테고리 없음 / / 2026. 5. 16. 14:50

[김원혁] Multimodal Unsupervised Image-to-Image Translation

Multimodal Unsupervised Image-to-Image Translation (MUNIT)

https://arxiv.org/pdf/1804.04732

저자: Xun Huang, Ming-Yu Liu, Serge Belongie, Jan Kautz

 

1. Introduction

Unsupervised Image-to-Image Translation (UNIT)

https://arxiv.org/pdf/1703.00848

소스 도메인의 이미지가 주어졌을 때, 해당 이미지 쌍의 예시를 보지 않고 타겟 도메인에 해당하는 이미지들의 조건부 분포를 학습

기존 모델들의 한계

기존 CycleGAN이나 UNIT은 입력과 출력이 1:1로 대응되는 결정론적(deterministic) 출력만이 가능함

즉, 하나의 입력 이미지에는 이미지 변환이 된 하나의 출력 이미지가 나온다.

→ 현실의 Multimodality 반영 불가

예시)

동일한 겨울 풍경 사진을 여름 도메인으로 바꾼다고 했을 때, 실제 현실에서는 날씨, 시간, 조명에 따라 무수히 많은 여름의 모습(Multimodal)이 존재할 수 있음

하지만 기존 모델은 매번 똑같은 하나의 여름 이미지(Unimodal/Deterministic)만 출력. 노이즈를 주입해도 네트워크가 이를 무시.

⇒ MUNIT: UNIT을 Multimodal로의 변환이 가능하도록 구현해보자

 

2. MUNIT Model

Assumption (핵심 아이디어)

  • UNIT 가정: source domain과 target domain간에는 공유하고 있는 latent space가 존재

- MUNIT은 이미지의 잠재 공간(latent space)을 콘텐츠 공간(content space), 스타일 공간(style space)로 분해될 수 있다 가정

- 서로 다른 도메인의 이미지가 콘텐츠 공간은 공유, 스타일 공간은 공유하지 않는다

 

→ 이미지 변환 시, 보존해야 할 정보는 content code에 인코딩. 도메인 별 속성 정보는 style code에 인코딩

→ style code를 바꿔줌으로서 자세는 동일하지만 다양한 형태를 띄고 있는 출력물 생성

예시) 겨울 풍경 사진 → 여름 풍경 사진 (동일한 배경)

  • content code: 길거리 구조, 건물 등
  • style code: 눈이 쌓여 있는 모습 등

Model 학습과정

(a) 도메인 내부 재구성(b) 도메인 간 교차 번역 두 가지 과정으로 나뉨

 

(a) Within-domain reconstruction (도메인 내부 재구성) 모델이 자기 도메인의 이미지를 완벽하게 분해하고 다시 조립할 수 있는지 학습하는 단계

1. 실제 도메인 1의 이미지 $x_1$을 입력받아 각각의 인코더를 통해 내용 코드 $c_1$과 스타일 코드 $s_1$을 추출합니다.  

2. 분리된 $c_1$과 $s_1$을 디코더에 통과시켜 다시 복원된 이미지 $\\hat{x}_1$을 만들어냅니다.

3. 원본 이미지와 복원된 이미지 사이의 차이를 줄이는 **Image Reconstruction Loss**가 적용됩니다.  

(b) Cross-domain translation (도메인 간 교차 번역) 실제 우리가 원하는 "Multimodal 이미지 번역"과 "코드 보존"이 일어나는 핵심 단계

1. 도메인 1 이미지 $x_1$에서 content($c_1$)만 추출합니다.  

2. 도메인 2의 스타일($s_2$)은 도메인 2의 실제 이미지에서 가져오는 대신, 표준정규분포(Gaussian Prior)에서 **무작위로 샘플링**합니다.

3. $c_1$과 무작위로 뽑은 $s_2$를 도메인 2의 디코더(파란색 화살표)에 결합하여 새로운 이미지 $x_{1\\to2}$를 생성합니다. 스타일 코드를 매번 다르게 뽑아주기 때문에 이 단계에서 **Multimodal(다양한 결과)** 출력이 가능해집니다.  

4. 여기서 끝내지 않고, 생성된 가짜 이미지 $x_{1\\to2}$를 다시 도메인 2의 인코더에 넣어 내용과 스타일($\\hat{c}_1, \\hat{s}_2$)을 다시 추출(Encode)해냅니다.  

적용되는 Loss:

◦ **GAN loss**: 생성된 이미지가 실제 도메인 2의 이미지처럼 정교해야 하므로, 도메인 2의 Discriminator를 속이도록 GAN loss를 부여합니다.  

◦ **Latent Reconstruction Loss** : 새로 추출된 $\\hat{c}_1$은 원본의 $c_1$과 같아야 하고, $\\hat{s}_2$는 가우시안 Prior에서 뽑았던 $s_2$와 같아야 합니다. 이 장치 덕분에 디코더가 스타일 코드를 무시하지 않고 이미지에 강제로 반영하게 됩니다.

 

Loss Function

1. Bidirectional Reconstruction Loss (양방향 재구성 손실)

- Image Reconstruction

- Latent Reconstruction

2. Adversarial Loss

번역된 이미지가 타겟 도메인의 실제 이미지들과 통계적으로 구별되지 않게 만드는 역할

MUNIT은 고품질 이미지를 위해 LSGAN(Least Squares GAN) 목적 함수와 여러 크기의 이미지를 동시에 검사하는 Multi-scale Discriminator를 사용

Discriminator의 목표는 실제 이미지는 1(진짜)에 가깝게, 생성된 이미지는 0(가짜)에 가깝게 판별

Total Loss

모든 손실 함수를 가중 합산하여 전체 네트워크를 동시에 최적화

두개의 GAN loss와 두개의 Image recon loss, 두개의 content recon loss, 두개의 style recon loss로 구성

Model Details

1. Content Encoder

몇개의 strided convolution layer를 통해 down sampling을 한 뒤, residual block를 통과

모든 convolution layer 후에는 Instance Normalization(IN)을 적용하여 style을 제거한 content만 남김

** 인스턴스 정규화(Instance Normalization, IN) 각 샘플(이미지)에 대해 채널별 평균과 표준 편차를 계산하여 정규화. 이미지 내의 픽셀 값들을 특정 범위로 조정하여 모델의 학습을 안정화하고 성능을 향상시키는 역할.

 

2. Style Encoder

Content Encoder와 마찬가지로 strided convolution layer를 통해 down sampling을 한 뒤, Global Pooling과 Fully Connected(FC) layer를 통해 content를 제거한 style만 남김

Content Encoder와는 다르게 style 정보만 남겨야하므로 style 정보를 없애는 IN을 적용 X

 

3. Decoder

Decoder는 각각의 Encoder를 통해 추출한 Conten와 Style를 합쳐주는 역할

Style Encoder에서 추출된 Style code를 가지고 MLP를 통해 Adaptive Instance Normalization (AdaIN)에 사용할 parameter로 변환

** AdaIN Layer

  • z는 content의 각 channel.
  • channel별로 mean과 std를 이용해 normalization
  • style code를 통해 생성된 감마와 베타를 각각 곱하고 더해주는 작업 → style 입히기

3. Experiments

평가지표

1. Human Preference

실제 사람에게 입력 이미지와 서로 다른 방법으로 변환한 결과 이미지 2개가 주어지며 어떤 결과 이미지가 더 정확해 보이는지 선택

2. LPIPS Distance

동일한 입력에서 무작위로 샘플링된 2개의 변환 결과 간의 평균 LPIPS 거리를 계산

데이터셋

  1. Edges↔shoes / hangbags
  2. Animal image Translation
  3. Street scene images
  4. Yosemite summer↔winter

실험 결과

지도학습 모델인 BicycleGAN에 필적하는 quality, diversity 점수를 얻었으며, 기존 비지도 학습 baseline 모델보다 우수

4. Conclusions

  • Content와 Style의 분리를 통해 Unsupervised 환경에서도 다양하고 고품질의 이미지 번역이 가능함을 증명
  • 향후 Style Transfer 및 Image-to-Image Translation 연구들의 기초 마련
  • 네이버 블로그 공유
  • 네이버 밴드 공유
  • 페이스북 공유
  • 카카오스토리 공유