Paper Review 27

[CVPR 2019] StyleGAN, [CVPR 2020] StyleGAN2

StyleGAN - Introduction Input latent space 가 train data 의 probability 를 따르다보면, entanglement 발생 StyleGAN 에선 intermediate latent space 를 사용함으로서 disentangle 시킬 수 있음 Perceptual path length 와 Linear seperability 를 제안 - Method 기존 PGGAN 에서 z 를 input 으로 주던 것과 달리, StyleGAN 에선 Constant 로 부터 시작함 z 는 non-linear mapping network f 를 통해 w 로 mapping Mapping network f 는 8 layer MLP 로 512 dimension 을 갖도록 구성 w 를 $..

[CVPR 2023] Boundary Unlearning: Rapid Forgetting of Deep Networks via Shifting the Decision Boundary

- Introduction Machine Unlearning 이란? Machine Learning: 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘의 연구 머신러닝은 정의에서도 알 수 있듯이 새로운 데이터를 학습시키는 반면, Machine unlearning 은 말 그대로 배우지 않게 하는 것, 즉 배운 것을 까먹게 하는 것이라고 할 수 있음 기존 unlearning 방법들은 model parameter 를 scrub 하는 방식으로 forgetting data 의 정보를 파괴 하지만 이 방법은 large dimension 으로 인해 parameter space 가 너무 크기 때문에 expensive (Fisher Information Matrix) Retrain 한 model 의 decision space..

[ICCV 2021] SNARF: Differentiable Forward Skinning for Animating Non-Rigid Neural Implicit Shapes

간략하게 정리하느라 intro 와 method 를 제외한 부분은 SKIP 했습니다. - Introduction Polygon: 다각형 Polygon Mesh: 곡면이 있는 형태의 음함수 (implicit function)들은 GPU 로 표현하기가 어려워서 곡면을 여러 개의 다각형으로 나누어 표현함, 삼각형이나 사각형 Linear Blend Skinning: Skeleton 에 skinning 을 하여 mesh 를 생성하는 방법으로 관절과 같은 부분에서 부자연스러운 현상 발생 관절이 있는 3D 물체들의 shape(형태) 와 deformation(변형) 을 modeling 하기 위해선 일반적으로 Linear Blend Skinning (LBS)를 사용하였으나, resolution-to-memory ratio..

[ACM Transactions on Graphics 2015] SMPL: A Skinned Multi-Person Linear Model

들어가기 앞서.. 너무 생소하기도 하고 어려워서 이게 최선이었습니다... 더 공부하다보면 이 논문이 잘 이해되는 날이 올지도.. - Introduction SMPL 은 skinned vertex-based model 로 다양한 realistic human body 생성을 목표로 함 기존에는 Linear Blending Skinning (LBS) model 이 주로 쓰였지만 밑 그림처럼 비 현실적인 경우 발생 (사실 눈으로 봤을땐 잘 모르겠지만 약간 토이스토리 woody 팔 같은 느낌?) 기존 방식들의 문제를 해결하기 위해 다양한 blend shape 을 학습 Identity Pose Soft-tissue dynamics Key component: Pose blend shape 들을 Part rotatio..

[CVPR 2023] InstantAvatar: Learning Avatars from Monocular Video in 60 Seconds

- Introduction 최근 monocular video 에서 NeRF 를 이용한 avatar reconstruction 등장 NeRF 는 canonical space 를 사용하는 model (canonical space 라는 단어가 굉장히 많이 등장) Canonical space 란? canonical: 기본형의, 표준이 되는 Canonical space: Object-centered coordinate system View space: Viewer-centered coordinate system 좋은 성능을 내지만 (1) Differentiable deformation module 과 (2) Volume rendering 두 가지에 의해 다음과 같은 문제점 발생 오랜 train 시간 실시간 ren..

[CVPR 2022 Oral] Point-NeRF: Point-based Neural Radiance Fields

- Introduction NeRF: High-quality view synthesis Deep multi-view stereo methods: Quickly reconstruct scene geometry via direct network inference, 일반적으로 MVS 라고 많이 부르는 듯 ► Point-NeRF: 3D point cloud 를 이용하여 위 두 방법의 장점을 합친 방법 Point-NeRF 는 scene surface 주변에 있는 neural point features 를 합쳐서 효과적으로 render Pre-trained 된 network 의 inference 를 통해 Point-NeRF 를 initialize 할 수 있음 → point cloud 생성 NeRF: Reconstr..

[CVPR 2022] Masked Autoencoders Are Scalable Vision Learners (MAE)

- Introduction In NLP, models such as GPT or BERT remove a portion of data and learn to predict the removed content ► What is the difference in masked autoencoding between CV and NLP? Architecture was different CNN was traditionally used in the field of vision ViT addressed this gap Information density is different Language: Human-generated signals Vision: Natural signals Masking a very high por..

[CVPR 2022] OMNIVORE: A Single Model for Many Visual Modalities

- Introduction 현재, computer vision model 들은 single modal 에 대하여 굉장히 잘 작동함 그러나 사람과 같이 modal 에 대한 flexibility 를 가지지 못함 ► Modality-agnostic model 의 필요성 Modality-agnostic model 의 장점 Cross-modal generalization: 한 가지 modality 에서 배운 정보를 다른 modality 의 recognition 에 활용할 수 있음 Saves the research and engineering effort: 너무 당연함 Leverage new visual sensors 이런 장점들에도 불구하고 다양한 문제(capacity)들로 인해 연구가 거의 되지 않았음 논문에서..

[CVPR 2023] GEN: Pushing the Limits of Softmax-Based Out-of-Distribution Detection

- Introduction OOD detection scenarios Covariate shift: Change in the input distribution Semantic shift: Change in the label distribution Existing OOD detection works Predictive distribution Incorporate feature statistics for ID data Requires a portion of training data Internal feature activation GOAL: Explore and push the limits of OOD detection when the output of a softmax layer is the only av..