상세 컨텐츠

본문 제목

[Paper review] Designing an Encoder for StyleGAN Image Manipulation

Paper review

by 최끝장1234 2022. 5. 6. 17:37

본문

앞선 포스팅한 psp의 논문을 읽고 다음으로 읽은 논문이다. 개인적으로 굉장히 흥미롭게 읽었는데, 논문에서 단순히 특정 모델을 바로 제시하기 보다는 latent space에 대해서 먼저 깊게 고찰하고, 이러한 분석을 바탕으로 모델을 제시했기 때문이다. 논문을 읽고나서 latent vector에 대해서 시야를 넓힐 수 있었다. 

 

논문에서 핵심적으로 다루는 pointdistortion, perceptual quality, editabilitytrade off이다. 논문의 설명을 빌려 세가지 용어에 대해서 설명을 하면 다음과 같다.

 

distortion→ generate한 이미지와 input 이미지가 얼마나 image space 상에서 적은 차이를 보이는지?

perceptual quality→ inversion한 latent vector를 통해 generate한 이미지가 얼마나 real 한지?

editability→ inversion한 latent vector를 활용해, manipulation(editing)을 했을때, 이미지가 얼마나 좋은 quality인지?

 

결론부터 말하면, 논문에서는 distortion-perceptual quality 사이의 trade off가 존재하고, distortion-editability 사이의 trade off가 존재한다는 것을 확인했다. 

 

이러한 trade off를 결정하는 핵심적인 요인"pretrain된 StyleGAN의 original latent space의 W에 얼마나 close한지"이다. 논문에서는 close는 다음과 같은 두가지의 기준으로 판단한다.

 

1. style vector들이 얼마나 variance한지? → 작을수록 close하다.

2. style vector 각각이 W distribution에 가까운가? → 가까울수록 close하다.

 

close할수록 논문에서는 perceptual quality, editability가 좋아진다고 말하고, 그에반해 distortion은 심해진다고 말한다.

이제 사진을 보면서 다시 이해해보자.

 

논문 참조, distortion-perceptual quality trade off

 

여기서 W, 가장 오른쪽이 pretrain된 StyleGAN의 original latent space라고 생각하면 된다. 중간 이미지는 확장된 latent space를 이용해서 inversion을 진했을때 결과이다. source 이미지와 비교했을때 먼저 distortion은 가운데 사진이 오른쪽 사진보다 더 적다는 것을 알 수 있다. (말의 생김새, 머리의 위치를 확인해보면 쉽게알 수 있다.) 다음으로 perceptual quality를 생각해보면, 가운데 말보다는 오른쪽 말이 더 real하다는 것이라고 판단할 수 있다. 이게 바로 distortion과 perceptual quality 사이의 tradeoff이다. 즉 original latent space에 더 가까울 수록, distortion 일어나지만, perceptual quality가 좋은 이미지를 생성할 수 있다.

 

다음으로 distortion-editability trade off를 살펴보자.

 

논문참조, distortion-editability trade off

사진이 작아서 안보이지만, 확대를 해서 보면, W에서 inversion을 진행하면, editing을 했을때 훨씬더 좋은 quality의 사진을 얻을 수 있다는 것을 알 수 있다. (아래 행의 사진을 보면, 차가 갑자기 리무진 마냥 부자연스럽게 길어졌다는 것을 확인할 수 있다)

 

논문에서는 이러한 latent space에 대한 고찰을 통해, e4e라는 input image를 받으면, 좋은 perceptual quality와 editablity을 잡을 수 있는 latent inversion encoder를 제시한다. (psp와 다르게 editing을 한번에 하진 않는다.)

 

논문참조. e2e의 구조

 

모델의 구조는 위 그림과 같다. encoder를 통해 뽑아내는 것은 single latent vector(w)와 이에 더해줄 N-1개의 델타값들(N=style vector의 개수)을 구하는 것이다. 여기서 single latent vector가 하는 역할이 pretrain된 StyleGAN의 latent space를 대표하는 벡터라고 생각하면 된다. 개인적으로 single latent vector 조차도 infer하지 않고, psp처럼 평균을 사용해도 가능하다고 생각했다. 

 

e4e 델이 사용하는 loss는 살펴보자.

 

논문 참조

 

위 loss들은 encoder에서 얻은 latent vector가 W latent space에 close하도록 하는 loss이다. regularization loss, gan loss가 사용됐다. 이를 통해 e4e가 perceptual quality, editability를 잡을 수 있도록 했다

 

논문참조

 

위 loss는 distortion을 잡기 위한 function이다. l2 loss, perceptual loss, similarity loss가 사용됐다. 

최종 loss는 다음과 같다.

 

논문참조

 

e4e에서는 위와같은 구조, 방법을 통해 distortion과 perceptual quality, editability 사이의 적절한 trade off를 조절함으로써, 좋은 inversion 성능을 내는 encoder를 훈련시킬 수 있었다.

 

추가로, 논문에서는 e4e의 성능을 평가하기 위한 새로운 척도latent editing consistency(LEC)를 제시한다. 이 척도는 encoder의 성능을 평가하는 지표로, 특정 이미지를 inversion을 한 뒤에 editing을 했을때, 그 역과정을 되돌아가도 이미지의 latent vector가 잘 유지하는지 판단한다. encoder가 완벽하다면 이 값이 0이 돼야한다. (그런 경우는 없다고 봐도 무방)

논문참조, LEC 구하는 과정

개인적으로, 이러한 LEC는 latent vector를 manipulating 할때, 특정 함수(f)로 manipulation이 정의돼야만 사용할 수 있다고 생각했다. (linear direction을 구해서 변환하는 경우처럼) 가령 clip을 통한 변환은 함수로 표현하지는 못하기 때문에(학습을 통해 이뤄짐), 이러한 평가척도를 활용하기는 어렵다. 

 

이번 논문은 e4e 모델을 아는 것보다는 inversion시 latent space상에 존재하는 trade off에 대해서 알 수 있어서 좋았다. 예전에 학회에서 관련 프로젝트를 할때, 원본 이미지와 비교했을때 distortion이 거의 없고 perceptual quality가 좋은 latent vector를 가지고 editing 한적이 있었는데, 결과자체가 희한하게 좋지 않은 경우가 있었다. 이러한 경우에 대해서 당시에는 StyleGAN을 훈련시킬때 데이터의 domain에 대한 문제라고 짐작만 했는데, 이번 논문을 읽고, 이에 대해 확신을 가질 수 있었다. editing 과정에서 domain 자체가 벗어났고, 그러한 결과가 나온 것이다. 결국 이를 보완하기 위해서는 editing 과정에서 벗어나 domain을 기존의 domain으로 보정하는 별도의 방법이 필요한 것으로 보인다. 

 

https://arxiv.org/abs/2102.02766

 

Designing an Encoder for StyleGAN Image Manipulation

Recently, there has been a surge of diverse methods for performing image editing by employing pre-trained unconditional generators. Applying these methods on real images, however, remains a challenge, as it necessarily requires the inversion of the images

arxiv.org

 

 

 

관련글 더보기

댓글 영역