AI 15

Object Pose Estimation, 6DoF, BOP challenge

3D 분야에 흥미가 있는데 generative model 을 다루자니 회사 일과 결이 너무 맞지 않음 그래서 3D Object detection 을 찾다가 지나가면서 보기만 했던 6DoF 를 한 번 알아봤음 더보기3D object detection 과 6Dof object pose estimation 의 차이점 3D 객체 검출 (3D object detection):목적: 3D 공간에서 객체의 위치와 크기를 찾는 것출력: 일반적으로 3D 바운딩 박스 (x, y, z 좌표, 길이, 너비, 높이)주로 사용되는 분야: 자율주행, 로봇 내비게이션6DoF 객체 자세 추정 (6Dof object pose estimation):목적: 객체의 정확한 위치와 방향을 결정하는 것출력: 6개의 자유도 (3개의 transla..

AI/Deep Learning 2024.07.26

Convolutional Neural Networks (CNN)

왜 이제와서 CNN 글을 올리냐고 한다면.. 너무 오래 안쓰다보니 까먹었기 때문에... 최근에는 nlp, cv 분야를 막론하고 모두 transformer 를 사용하지만 이건 학계 또는 빅테크 기준이라고 볼 수 있음 실제 산업, 특히 on-device AI 를 위해선, 모델이 작고 빠른 inference 가 가능해야함 산업에서 사용되는 Object Detection 모델은 대부분 YOLO 라는 CNN 기반의 모델이기 때문에 복습겸 정리해보기로 했음 신경망의 역사를 간단하게 보자면 기존에는 MLP 로 이것저것 다 처리하다가 이미지 처리용으로 CNN 이 등장하게 되었음 CNN 은 이미지에 대한 Inductive Bias 를 가지고 있음  Inductive Bias: 어떤 문제를 해결하기 위한 사전 정보를 통해..

AI/Deep Learning 2024.07.06

Autoregressive Model

Autoregressive: 자동회귀, 자기회귀 AutoRegressive (AR) Model: 자기회귀 모델 ChatGPT 4 says that... Autoregressive model(자기회귀 모델)은 통계학과 신호 처리에서 널리 사용되는 개념으로, 시계열 데이터에서 이전의 관측값들이 현재 관측값에 영향을 미친다고 가정하는 모델입니다. 이 모델의 핵심은 과거의 데이터 포인트가 현재 데이터 포인트를 예측하는 데 사용된다는 점입니다. Diffusion 논문, 특히 딥러닝과 관련된 연구에서 autoregressive model이 언급되는 경우는 주로 생성 모델링과 관련이 있습니다. 여기서 autoregressive model은 데이터의 분포를 학습하고, 이를 바탕으로 새로운 데이터를 순차적으로 생성하는 ..

AI/Deep Learning 2024.03.08

Variational Auto-Encoder (VAE)

Variational Auto-Encoder (VAE) : Input image $x$ 를 잘 표현하는 latent vector $z$ 로 바꾸고, 이 $z$ 를 다시 image $x$ 와 유사하지만 다른 데이터 $x^{\prime}$ 을 생성하는 Generative Model ➡︎ Auto-Encoder 라는 단어가 들어가기 때문에 관련이 있어보이지만, 구조적으로만 비슷해보일뿐, 사용 목적은 다름 Encoder Input $x$ 가 주어졌을 때 latent $z$ 의 분포를 approximate 하는 것이 목표 즉, 평균 $\mu$ 와 표준편차 $\sigma$ 를 구하고 noise $\epsilon$ 을 추가하여 latent $z$ 를 구성 Decoder Latent $z$ 가 주어졌을 때 $x^{\p..

AI/Deep Learning 2024.02.28

FID (Frechet Inception Distance)

생성모델에서 실제 이미지와 생성된 이미지에 대해 distribution 측면에서 얼마나 유사한지 평가하는 metric 기존 Inception Score (IS) 는 생성된 이미지를 사용하여 성능을 평가 FID 는 IS 를 개선하여 단순하게 생성된 이미지로 평가하지 않고 실제 이미지의 distribution 과 생성 이미지의 distribution 을 비교 Pretrained Inception v3 를 사용 $d^2\left((m, C),\left(m_w, C_w\right)\right)=\left\|m-m_w\right\|_2^2+\operatorname{Tr}\left(C+C_w-2\left(C C_w\right)^{1 / 2}\right)$ 낮은 값을 가질수록 좋은 품질(실제 이미지와 유사)!!

AI/Metrics 2023.10.20

Generative Adversarial Nets (GAN) 수식으로 이해

GAN: $G$ 와 $D$ 가 two-player minimax game 을 하는 것 $G$: Generator $D$: Discriminator Minimax game: 게임이론, 결정이론 등에서 쓰이는 것으로 최악의 상황에서 손실을 최소화 하는 방향 Value function: $\min _G \max _D V(D, G)=\mathbb{E}_{\boldsymbol{x} \sim p_{\text {data }}(\boldsymbol{x})}[\log D(\boldsymbol{x})]+\mathbb{E}_{\boldsymbol{z} \sim p_{\boldsymbol{z}}(\boldsymbol{z})}[\log (1-D(G(\boldsymbol{z})))]$ $G$ 의 입장 $\min _G V(D, G..

AI/Deep Learning 2023.09.13

AUROC (Area Under Receiver Operating Characteristic curve)

AUROC 를 알기위해선 ROC (Receiver Operating Characteristic) curve 가 무엇인지 알아야한다. ROC curve: $x$ 축이 FPR (False Positive Rate), $y$ 축이 TPR (Talse Positive Rate) 으로 이루어져 있으며 모든 threshold 에 대한 모델의 성능을 보여주는 그래프 AUROC: ROC curve 밑 부분의 넓이를 구하는데 높을수록 모델의 성능이 좋음 (↑) Specificity (특이도): $\frac{TN}{FP+TN}$ Precision (정밀도): $\frac{TP}{TP+FP}$ Recall (재현율) = Sensitivity (민감도): $\frac{TP}{TP+FN}$ Accuracy (정확도): $\fr..

AI/Metrics 2023.07.04

LPIPS (Learned Perceptual Image Patch Similarity)

이해하기 쉽도록 좀 극단적인 이미지를 예시로 들어 설명을 시작하도록 하겠습니다.사람은 눈과 뇌를 통해, 서로 다른 종, 다른 옷, 다른 배경의 강아지 이미지를 보더라도 모두 다 강아지이기 때문에 비슷한 이미지라고 인식함 그렇다면 딥러닝 모델은 이 두 이미지가 비슷한 이미지라는 것을 어떻게 평가할까? 픽셀 단위로 본다던지 다른 방법이 있을수도 있겠지만, 너무 low level 에서의 비교는 blur 와 같이 큰 영향을 끼치는 차이를 별 것 아닌 것처럼 인식할 수 있음 (L2 loss 의 차이가 적을 수 있음) 이때 LPIPS 라는 metric 을 사용하면 쉽게 비교가 가능한데, 이 metric 은 주로 생성모델 (GAN, ...) 에서 생성되거나, 복원, deblur 등을 진행한 이미지가 실제 이미지와 얼..

AI/Metrics 2023.04.10

SSIM (Structural Similarity Index Map)

두 이미지의 유사도를 Luminance, Contrast, Structure 를 이용하여 비교 Luminance (휘도): 빛의 밝기 Contrast (대조): 빛의 밝기 차이 Structure (구조): SSIM 은 0~1 의 값을 가지며, 값이 높을수록 두 이미지가 유사함 $SSIM(x,y)=[l(x,y)]^\alpha \cdot [c(x,y)]^\beta\cdot[s(x,y)]^\gamma$ $l(x,y)=\frac{2\mu_x\mu_y+C_1}{\mu^2_x+\mu^2_y+C_1}$ $c(x,y)=\frac{2\sigma_x\sigma_y+C_2}{\sigma^2_x+\sigma^2_y+C_2}$ $s(x,y)=\frac{\sigma_{xy}+C_3}{\sigma_x\sigma_y+C_3}$ $C..

AI/Metrics 2023.04.10