Paper Review/3D Reconstruction (3DGS, NERF, LRM) 6

[ICLR 2024] LRM: Large reconstruction model for single image to 3d

- Introduction 어떤 물체의 이미지 한 장으로 3D reconstruction 이 가능할까? 최근 2d image generation 분야를 보면, large 모델을 사용하면서 아주 좋은 성능을 보이고 있음► 3D recon 분야에도 적용 (transformers) 1. 이미지를 받아서 triplane representation 형태로 NeRF 추정 (EG3D 에서 제안)Volume 이나 Point cloud 에 비해 연산량이 적음2. Encoder-Decoder architecture 제안 (DINO)- Method  Image EncoderDINO 학습된 ViT 사용 Input: 512 x 512 x 3 Conv Output, ViT Output: (32 x 32) x 768 일반적으로 C..

[SIGGRAPH 2023] 3D Gaussian Splatting for Real-Time Radiance Field Rendering

- Introduction  Gaussian Splatting 은 기존에 품질이 3D recon 분야에서 제일 좋다고 평가되던 Mip-NeRF (CVPR 2022) 보다 더 좋은 품질과 학습이 빠르기로 유명한 Instant-NGP (SIGGRAPH 2022) 보다 더 빠른 학습으로 최근 굉장히 각광 받고 있음 Goal of this paper: Real-time high-resolution rendering Main components of Gaussian Splatting NeRF 와 똑같이 SfM (Structure-from-Motion) point 를 input 으로 받음 ↔︎ MVS (Multi-View Stereo) data 를 요구하는 point-based method 들과는 다름Optimiz..

[CVPR 2022 Oral] Point-NeRF: Point-based Neural Radiance Fields

- Introduction NeRF: High-quality view synthesis Deep multi-view stereo methods: Quickly reconstruct scene geometry via direct network inference, 일반적으로 MVS 라고 많이 부르는 듯 ► Point-NeRF: 3D point cloud 를 이용하여 위 두 방법의 장점을 합친 방법 Point-NeRF 는 scene surface 주변에 있는 neural point features 를 합쳐서 효과적으로 render Pre-trained 된 network 의 inference 를 통해 Point-NeRF 를 initialize 할 수 있음 → point cloud 생성 NeRF: Reconstr..

[WACV 2023] Vision Transformer for NeRF-Based View Synthesis from a Single Input Image

- Introduction pixel-NeRF 와 같은 image-conditioned model 의 경우 target view 에 있는 pixel 이 input 에서 관찰이 불가능한 경우, significantly degrade 됨 따라서 이 논문에선 ViT 를 이용하여 global feature 를, CNN 을 이용하여 local feature 를 뽑고 incorporate 하여 더 나은 occluded region 에 대한 rendering quality 향상을 목표로 함 차에서 input view 에서 보이지 않는 wheel 을 rendering 하기 위해선, image-conditioned model 의 경우엔 ray 를 따라서 feature 를 query 이 논문의 method 는 long-r..

[CVPR 2021] pixelNeRF: Neural Radiance Fields from One or Few Images

- Introduction Problem define: 기존 NeRF 는 너무 많은 수의 image 를 요구하며 너무 긴 optimization 시간으로 인해 impractical ► pixelNeRF 는 image feature 를 사용하지 않는 NeRF 와 달리, 각 pixel 에 aligned 된 spatial image feature 를 input 으로 사용 ► pixelNeRF 는 NeRF 와 달리 few input image 로 잘 작동함 Framework Single Image Input image → Fully convolutional image feature grid Sample the corresponding image feature via projection and bilinear i..

[ECCV 2020 oral] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

- Introduction Pinhole camera model (바늘 구멍 사진기) Normalized Plane: 3D 의 object 를 2D 로 mapping $\left[\begin{array}{l}X \\ Y \\ Z\end{array}\right]=Z\left[\begin{array}{l}u \\ v \\ 1\end{array}\right]$ Intrinsic Parameter: Normalized Plane 위의 meter 단위로 표현된 좌표 $\left[\begin{array}{l}u \\ v \\ 1\end{array}\right]$ 를 pixel 단위 좌표 $\left[\begin{array}{l}x \\ y \\ 1\end{array}\right]$로 변환 $\left[\begin{..