오늘 리뷰할 논문은 CVPR 2022에 등재된 논문으로, StyleGAN의 latent space 개념을 새로운 방식으로 활용하여 few-shot regression, sorting에 적용했다.
어떤 방식을 활용했을까? 이 질문에 대한 답은 "distance"에 있다. 우리가 어떤 사진을 보고 이 사진의 정확한 카메라 각도(Yaw)에 대해서 알고 싶다고 가정하자. 기본적으로 회귀모델을 사용해야한다는 생각을 할 수 있다. 이러한 회귀모델이 예측해야하는 종속변수는 카메라 각도일 것이다. 그렇다면 회귀모델의 독립변수는 어떤것을 사용해야 할까? 논문에서는 distance라는 개념을 정의 함으로써 이미지 한장에 대응하는 distance를 계산하여 이를 독립변수로 활용하고자 한다.
이제 이 distance의 실체에 대해서 알아보자.
pretrained StyleGAN의 w벡터들이 위 그림과 같은 하나의 초평면을 이룬다고 가정하면, 우리가 edit direction을 정하면, 이 edit direction이 곧, 초평면의 normal이 된다. 여기서 특정 이미지를 inversion했을때, 이 latent code가 이 초평면과 얼마만큼의 거리만큼 떨어져있는지 계산한 값이 distance이다. 이러한 정의로 부터, 특정 이미지의 distance는 곧 original w벡터가 만드는 이미지에서 edit direction으로 얼마나 변형이 이루어졌는지 나타내는 하나의 지표인 셈이다.
그렇다면 이 distance는 어떤식으로 계산할 수 있을까? 논문에서 제시한 식은 다음과 같다.
여기서,
w벡터: editing 후 w벡터
n벡터: edit direction (w space에서)
b: 기본적으로 0으로 사용, 하지만 edit method 중 n벡터와 더불어 b값도 존재하는 경우에는 그 값 활용
그러나 위 계산식을 바로 적용할 수 있는 것은 아니다. 이유는 우리가 distance를 게산하기 위해 특정이미지를 latent space로 Inversion할떄 선택지는 W/W+ 두가지인데, 논문에서는 후자의 방식을 택했기 때문이다. W+에서는 StyleGAN의 layer 개수가 L개라면 서로 다른 L개의 w latent code가 존재하게 되고, 이 각각의 코드와 초평면사아의 거리를 모두 따로 계산하여 합산해야지 W+상에 inversion한 code와 초평면사이 distance가 도출된다.
논문에서는 위 식과 같이 layer importance(S)를 고려한 가중치를 계산하여 가중합하는 방식으로 이를 합산한다. (여기서 layer importance이란 주어진 editing을 실행할때, 각 layer가 얼마나 중요하게 이에 관여하는지 표현한 수치로, 구체적인 계산 방법은 논문 참고바란다.)
이제 회귀방정식의 독립변수인 distance를 계산하는 방법을 알았으므로, 회귀방정식을 구해보자. 방정식은 독립변수가 distance 하나이므로, 최소 두장의 이미지에 대응하는 distance(x)와 에측하고자하는 real value값(y)이 데이터로 필요하다. 가지고 있는 이미지를 Encoder를 사용하여 Inversion을 진행하고 distance를 계산한뒤, 회귀분석을 통해, 하나의 방정식이 도출되면 이후 새로운 이미지에 대한 real value값을 찾을 수 있다. 이러한 일련의 과정은 결국 latent space에서 distance라는 feature만 계산하면 few shot regression이 가능함을 보여주는 것이다.
성능을 보면 다음과 같다.
real value가 camera Pose, Age에 대해서 regression의 결과를 나타낸 것이다. 다른 모델들은 latent space에서의 distance가 아닌 image pixel space, 모델에 의해 학습된 feature space에서의 distance를 활용하여 regression을 진행했다. 그 결과 논문에서 제시하는 방법이 가장 좋은 성능을 낸다는 것을 보여주고 있다. 이는 또한 latent space에서의 distance가 regression에서 discriminative한 feature임을 해석할 수 있다.
distance의 개념을 활용하면 다음과 같은 sorting task에도 쉽게 적용할 수 있다.
이번 논문을 읽으면서 가장 흥미로웠던 점은 흔히 StyleGAN의 latent space는 이미지를 직접 editing하기 위한 용도에만 초점을 맞춰진 감이 없지 않아 있었는데, few shot regression가 같은 다소 생소한 task에도 활용되어 좋은 성능을 낸다는 것이다. 이런류의 논문은 최대한 많이 읽어서 하나의 주제를 보는 시야를 넓힐 필요가 있다는 생각이 든다.
https://arxiv.org/abs/2107.11186
댓글 영역