- Introduction
최근 Diffusion Model 이 Image Synthesis 분야에서 아주 좋은 결과물을 보이고 있음

Reference 정리
[30] Denoising diffusion probabilistic models [NeurIPS 2020]
DDPM 논문
[85] Score-based generative modeling through stochastic differential equations [ICLR 2021]
Stochastic Differential Equations (SDE) 를 응용한 diffusion 기술
이와 관련된 논문으로는 Generative modeling by estimating gradients of the data distribution [NeurIPS 2019] 와 Consistency Models [arXiv 2023] 이 있는데 모두 수학적인 난이도가 있는 논문들...
모두 OpenAI 의 Yang Song 연구원 분께서 작성하셨음
[7] Wavegrad: Estimating gradients for waveform generation [ICLR 2021]
[45] Variational diffusion models
[48] Diffwave: A versatile diffusion model for audio synthesis
[57] Symbolic music generation with diffusion models
[15] Diffusion models beat gans on image synthesis
[31] Cascaded diffusion models for high fidelity image generation
[72] Image super-resolution via iterative refinement
위에 몇 개 빼곤 모르겠지만 차차 알아가는걸로..
Likelihood-based model 의 경우엔 너무 미묘한 값까지 모델링을 하느라 computing resource 를 너무 많이 잡아먹음
이를 줄이기 위한 시도들이 있긴 했지만 그래도 여전히 무거움 (v100 으로 150-1000일?!)
아무튼 결론은 DM 으로 고해상도 이미지 생성을 할 수 있어야하는데, 에너지 소모도 크고 시간이 오래 걸리기 때문에 DM 의 computational demand 를 줄여야함

Likelihood-based model 은 크게 2개의 step 으로 나눌 수 있음
Step 1: Perceptual compression
High-frequency detail 을 제거하고 약간의 semantic variation 을 학습
Step 2: Semantic compression
Semantic, conceptual composition 을 학습
→ 따라서 본 논문에선 perceptual 하게 비슷하지만 computation 관점에서 좀 더 적합한 space 를 찾아, 고해상도 이미지를 위한 학습을 진행하려고 함
본 논문에선 Autoencoder 를 단 한 번만 학습하여 data space 와 perceptually 비슷한 lower-dimensional representaional space 를 구할 수 있음
저차원에서 DM 을 학습시키기 때문에 이전 모델들처럼 과한 space 의 압축에 의존하지 않고 spatial dimensionality 를 유지할 수 있음
➡︎ Latent Diffusion Model (LDM)
Main Contributions
- 다른 transformer 만 사용한 방법들에 비해 고차원 데이터를 더 잘 다룰 수 있음 (better compression, 고해상도 이미지 생성에 대한 효율적인 application)
- 낮은 computation cost 로 좋은 성능을 보임
- Simplified 된 학습 과정 Without Delicate Weighting
- SR, impainting, semantic synthesis 와 같은 densely conditioned task 에서 효과적
- General-Purpose (T-to-I, Layout-to-I)
- Pretrained weight 공개
- Method
Autoencoder 를 사용하여 computational cost 를 줄임으로서 여러가지 장점이 존재
- Low-dimension 에서 sampling 이 진행되기 때문에 훨씬 효율적임
- UNet architecture 를 사용하는 DM 의 inductive bias 를 활용하여 spatial structure 를 가진 data 에 더 효과적
- Latent space 를 여러 모델을 학습하는데 사용 가능 - 범용성 있는 학습 모델

Perceptual Image Compression
Autoencoder 는 VQGAN 사용
x∈RH×W×3 가 주어졌을 때, Encoder 를 통해 z=E(x) (z∈Rh×w×c) 를 구할 수 있음
이후 Decoder 를 통한 ˜x=D(z)=D(E(x)) reconstruction
Encoder 에서 downsampling 은 factor f=H/h=W/w 를 통해서 진행하는데, 본 논문에서는 f=2m 를 사용
*Regularization
High-variance latent space 의 방지를 위해 두 가지 reg 적용
- KL-reg: 학습된 latent 의 standard normal 에 가벼운 KL penalty 를 줌
- VQ-reg: decoder 에 VQ layer 를 사용
Latent Diffusion Models
LDM=Ex,ϵ∼N(0,1),t[‖ϵ−ϵθ(xt,t)‖22]
xt 는 x 에 noise 가 추가된 것
Denoising autoencoder: ϵθ(xt,t);t=1…T
Latent space 를 사용하며 장점이 몇 가지 있는데, (1) data 의 좀 더 중요한 semantic bits 에 집중할 수 있으며, (2) computation 관점에서 효율적임
우리 모델의 2d conv 로 구성된 UNet 과 reweighted bound를 사용하여 perceptual하게 가장 관련성이 높은 비트에 목적 함수를 더 집중시키는 Inductive bias 를 사용
LLDM:=EE(x),ϵ∼N(0,1),t[‖ϵ−ϵθ(zt,t)‖22]
Conditioning Mechanisms
Cross-Attention 을 통한 conditioning
Attention(Q,K,V)=softmax(QKT√d)⋅V
Q=W(i)Q⋅φi(zt),K=W(i)K⋅τθ(y),V=W(i)V⋅τθ(y)
Domain Specific Encoder: τθ(y)∈RM×dτ
LLDM:=EE(x),y,ϵ∼N(0,1),t[‖ϵ−ϵθ(zt,t,τθ(y))‖22]
- Experiment
1. On Perceptual Compression Tradeoffs


2. Image Generation with Latent Diffusion


3. Conditional Latent Diffusion



- Reference
[1] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." CVPR 2022 [Paper link]
'Paper Review > Diffusion, VAE' 카테고리의 다른 글
[NeurIPS 2020] Denoising Diffusion Probabilistic Models (0) | 2024.03.04 |
---|