전체 글 93

Variational Auto-Encoder (VAE)

Variational Auto-Encoder (VAE) : Input image $x$ 를 잘 표현하는 latent vector $z$ 로 바꾸고, 이 $z$ 를 다시 image $x$ 와 유사하지만 다른 데이터 $x^{\prime}$ 을 생성하는 Generative Model ➡︎ Auto-Encoder 라는 단어가 들어가기 때문에 관련이 있어보이지만, 구조적으로만 비슷해보일뿐, 사용 목적은 다름 Encoder Input $x$ 가 주어졌을 때 latent $z$ 의 분포를 approximate 하는 것이 목표 즉, 평균 $\mu$ 와 표준편차 $\sigma$ 를 구하고 noise $\epsilon$ 을 추가하여 latent $z$ 를 구성 Decoder Latent $z$ 가 주어졌을 때 $x^{\p..

AI/Deep Learning 2024.02.28

[CVPR 2023] Next3D: Generative Neural Texture Rasterization for 3D-Aware Head Avatars

- Introduction 몇 2D generative model 은 3DMM 을 도입하여 image animation 을 수행 그러나 geometry constraint 의 부족으로 shape distortion 이 발생함 따라서 3D GAN 과 3DMM 을 결합하고자 하는 시도가 있었지만, topological change 와 under-constrained deformation field 로 인해 문제들이 있었음 ► 이 task 의 key challenge 는 animation accuracy 와 topological flexibility 를 위한 3D generative setting modeling deformation Next3D 에서는 머리를 dynamic part 와 static part ..

Vector Norm (L1, L2, Frobenius)

공부를 하다보니 ||n|| 과 |n| 의 차이가 헷갈려서 작성을 시작함 GPT 에게 물어보니 좀 모호하게 사용되기도 한다고 함 벡터의 크기를 나타내는 데 사용되는 표기법에는 여러 가지가 있습니다. 일반적으로 벡터를 나타낼 때는 화살표나 굵은 글씨체를 사용하고, 벡터의 크기를 나타낼 때는 선을 사용하는 것이 일반적입니다. 여기서 선을 하나 또는 두 개 사용하는 것에 대한 차이를 살펴보겠습니다. 1. 단일 선(|v|): 이 표기법은 벡터의 '절대값' 또는 '크기'를 나타냅니다. 예를 들어, 벡터 v가 있을 때, |v|는 벡터 v의 크기를 의미합니다. 이는 벡터가 가리키는 방향과 관계없이 그 길이만을 나타냅니다. 2. 이중 선(‖v‖): 이 표기법은 주로 노름(norm)을 나타내는 데 사용됩니다. 노름은 벡터..

FID (Frechet Inception Distance)

생성모델에서 실제 이미지와 생성된 이미지에 대해 distribution 측면에서 얼마나 유사한지 평가하는 metric 기존 Inception Score (IS) 는 생성된 이미지를 사용하여 성능을 평가 FID 는 IS 를 개선하여 단순하게 생성된 이미지로 평가하지 않고 실제 이미지의 distribution 과 생성 이미지의 distribution 을 비교 Pretrained Inception v3 를 사용 $d^2\left((m, C),\left(m_w, C_w\right)\right)=\left\|m-m_w\right\|_2^2+\operatorname{Tr}\left(C+C_w-2\left(C C_w\right)^{1 / 2}\right)$ 낮은 값을 가질수록 좋은 품질(실제 이미지와 유사)!!

AI/Metrics 2023.10.20

[CVPR 2023] 3D GAN Inversion with Facial Symmetry Prior

- Introduction 3D geometry 는 한 개의 monocular image 만으로 만들 수 없기 때문에, 3D inversion result 는 별로 좋지 못함 → Optimization 이 진행될수록 점점 얼굴이 납작해지며 blurry & inconsistent 하는 등의 퀄리티도 좋지 못함 Main contribution 사람의 얼굴이 symmetrical 하다는 점을 이용하는 3D GAN inversion method 제안 Depth-guided 3D warping 을 이용하여 texture quality 와 geometry 향상 - Method Two-stage inversion pipeline 1. Inversion with Symmetry for Rough Geometry 이 부..

2D GAN Inversion: [CVPR 2021] pSp, [ACM TOG 2021] e4e, [ACM TOG 2022] PTI

[CVPR 2021] pSp - Introduction pSp: pixel2style2pixel StyleGAN 에서 진행 실제 이미지에서 512 dimension 을 가지는 vector $\mathbf{w} \in \mathcal{W}$ 로 바꾸면 recon 이 제대로 이루어지지 않음을 알 수 있음 대신 이미지를 $\mathcal{W}+$ 라는 확장된 공간으로 encoding 하지만 정확도도 높지 않고 시간도 오래 걸림 pSp 에선 encoder 를 사용하여 빠르고 정확하게 했음 - Method ResNet 을 backbone 으로 하는 Feature Pyramid Network (FPN) 에서 feature map 을 뽑음 Three-level feature map: Coarse, medium, fi..

[CVPR 2022] EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

- Introduction 3D aware GAN: Single view 2D 사진 collection 으로 unsupervised 3D representation 을 배우는 Generator 제안 3D-grounded rendering 의 computational efficiency 를 향상시킴 - 이를 통해 이전에 존재하던 resolution, quality issue 를 최소화 Dual discrimination strategy 를 사용하여 neural rendering 과 final output 사이의 consistency 를 유지하여 바람직 하지 않은 view 의 불일치를 regularize 학습 중에는 pose-correlated attributes 을 잘 모델링 하면서, inference 에..