Paper Review 26

[ICLR 2024] LRM: Large reconstruction model for single image to 3d

- Introduction 어떤 물체의 이미지 한 장으로 3D reconstruction 이 가능할까? 최근 2d image generation 분야를 보면, large 모델을 사용하면서 아주 좋은 성능을 보이고 있음► 3D recon 분야에도 적용 (transformers) 1. 이미지를 받아서 triplane representation 형태로 NeRF 추정 (EG3D 에서 제안)Volume 이나 Point cloud 에 비해 연산량이 적음2. Encoder-Decoder architecture 제안 (DINO)- Method  Image EncoderDINO 학습된 ViT 사용 Input: 512 x 512 x 3 Conv Output, ViT Output: (32 x 32) x 768 일반적으로 C..

[CVPR 2022] High-Resolution Image Synthesis with Latent Diffusion Models (Stable-Diffusion)

- Introduction 최근 Diffusion Model 이 Image Synthesis 분야에서 아주 좋은 결과물을 보이고 있음 Reference 정리 [30] Denoising diffusion probabilistic models [NeurIPS 2020] DDPM 논문 [85] Score-based generative modeling through stochastic differential equations [ICLR 2021] Stochastic Differential Equations (SDE) 를 응용한 diffusion 기술 이와 관련된 논문으로는 Generative modeling by estimating gradients of the data distribution [NeurIPS ..

[NeurIPS 2020] Denoising Diffusion Probabilistic Models

- Introduction Diffusion: 확산 이 표현은 열역학(Thermodynamics)에서 원자나 분자가 농도가 높은 곳에서 낮은 곳으로 이동하는 현상을 모티브로 하였음 Diffusion (Probabilistic) Model 은 parameterized 된 Markov Chain 으로 이루어져 있으며, finite 시간이 지난 후에 data 에 맞는 이미지를 생성하도록 설계 되어 있음 Diffusion process 는 데이터에 noise 를 점진적으로 추가하는 방식으로 이루어짐 Diffusion 모델 자체로 직관적이고 학습하기 용이하지만 high quality sample 을 만드는 연구는 없었음 (ICML 2015 논문을 뜻하는듯) - Method Forward Process (Diffu..

[CVPR 2023] Next3D: Generative Neural Texture Rasterization for 3D-Aware Head Avatars

- Introduction 몇 2D generative model 은 3DMM 을 도입하여 image animation 을 수행 그러나 geometry constraint 의 부족으로 shape distortion 이 발생함 따라서 3D GAN 과 3DMM 을 결합하고자 하는 시도가 있었지만, topological change 와 under-constrained deformation field 로 인해 문제들이 있었음 ► 이 task 의 key challenge 는 animation accuracy 와 topological flexibility 를 위한 3D generative setting modeling deformation Next3D 에서는 머리를 dynamic part 와 static part ..

[SIGGRAPH 2023] 3D Gaussian Splatting for Real-Time Radiance Field Rendering

- Introduction  Gaussian Splatting 은 기존에 품질이 3D recon 분야에서 제일 좋다고 평가되던 Mip-NeRF (CVPR 2022) 보다 더 좋은 품질과 학습이 빠르기로 유명한 Instant-NGP (SIGGRAPH 2022) 보다 더 빠른 학습으로 최근 굉장히 각광 받고 있음 Goal of this paper: Real-time high-resolution rendering Main components of Gaussian Splatting NeRF 와 똑같이 SfM (Structure-from-Motion) point 를 input 으로 받음 ↔︎ MVS (Multi-View Stereo) data 를 요구하는 point-based method 들과는 다름Optimiz..

[CVPR 2023] 3D GAN Inversion with Facial Symmetry Prior

- Introduction 3D geometry 는 한 개의 monocular image 만으로 만들 수 없기 때문에, 3D inversion result 는 별로 좋지 못함 → Optimization 이 진행될수록 점점 얼굴이 납작해지며 blurry & inconsistent 하는 등의 퀄리티도 좋지 못함 Main contribution 사람의 얼굴이 symmetrical 하다는 점을 이용하는 3D GAN inversion method 제안 Depth-guided 3D warping 을 이용하여 texture quality 와 geometry 향상 - Method Two-stage inversion pipeline 1. Inversion with Symmetry for Rough Geometry 이 부..

2D GAN Inversion: [CVPR 2021] pSp, [ACM TOG 2021] e4e, [ACM TOG 2022] PTI

[CVPR 2021] pSp - Introduction pSp: pixel2style2pixel StyleGAN 에서 진행 실제 이미지에서 512 dimension 을 가지는 vector $\mathbf{w} \in \mathcal{W}$ 로 바꾸면 recon 이 제대로 이루어지지 않음을 알 수 있음 대신 이미지를 $\mathcal{W}+$ 라는 확장된 공간으로 encoding 하지만 정확도도 높지 않고 시간도 오래 걸림 pSp 에선 encoder 를 사용하여 빠르고 정확하게 했음 - Method ResNet 을 backbone 으로 하는 Feature Pyramid Network (FPN) 에서 feature map 을 뽑음 Three-level feature map: Coarse, medium, fi..

[CVPR 2022] EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

- Introduction 3D aware GAN: Single view 2D 사진 collection 으로 unsupervised 3D representation 을 배우는 Generator 제안 3D-grounded rendering 의 computational efficiency 를 향상시킴 - 이를 통해 이전에 존재하던 resolution, quality issue 를 최소화 Dual discrimination strategy 를 사용하여 neural rendering 과 final output 사이의 consistency 를 유지하여 바람직 하지 않은 view 의 불일치를 regularize 학습 중에는 pose-correlated attributes 을 잘 모델링 하면서, inference 에..

[CVPR 2019] StyleGAN, [CVPR 2020] StyleGAN2

StyleGAN - Introduction Input latent space 가 train data 의 probability 를 따르다보면, entanglement 발생 StyleGAN 에선 intermediate latent space 를 사용함으로서 disentangle 시킬 수 있음 Perceptual path length 와 Linear seperability 를 제안 - Method 기존 PGGAN 에서 z 를 input 으로 주던 것과 달리, StyleGAN 에선 Constant 로 부터 시작함 z 는 non-linear mapping network f 를 통해 w 로 mapping Mapping network f 는 8 layer MLP 로 512 dimension 을 갖도록 구성 w 를 $..