AI/Deep Learning 10

Object Pose Estimation, 6DoF, BOP challenge

3D 분야에 흥미가 있는데 generative model 을 다루자니 회사 일과 결이 너무 맞지 않음 그래서 3D Object detection 을 찾다가 지나가면서 보기만 했던 6DoF 를 한 번 알아봤음 더보기3D object detection 과 6Dof object pose estimation 의 차이점 3D 객체 검출 (3D object detection):목적: 3D 공간에서 객체의 위치와 크기를 찾는 것출력: 일반적으로 3D 바운딩 박스 (x, y, z 좌표, 길이, 너비, 높이)주로 사용되는 분야: 자율주행, 로봇 내비게이션6DoF 객체 자세 추정 (6Dof object pose estimation):목적: 객체의 정확한 위치와 방향을 결정하는 것출력: 6개의 자유도 (3개의 transla..

AI/Deep Learning 2024.07.26

Convolutional Neural Networks (CNN)

왜 이제와서 CNN 글을 올리냐고 한다면.. 너무 오래 안쓰다보니 까먹었기 때문에... 최근에는 nlp, cv 분야를 막론하고 모두 transformer 를 사용하지만 이건 학계 또는 빅테크 기준이라고 볼 수 있음 실제 산업, 특히 on-device AI 를 위해선, 모델이 작고 빠른 inference 가 가능해야함 산업에서 사용되는 Object Detection 모델은 대부분 YOLO 라는 CNN 기반의 모델이기 때문에 복습겸 정리해보기로 했음 신경망의 역사를 간단하게 보자면 기존에는 MLP 로 이것저것 다 처리하다가 이미지 처리용으로 CNN 이 등장하게 되었음 CNN 은 이미지에 대한 Inductive Bias 를 가지고 있음  Inductive Bias: 어떤 문제를 해결하기 위한 사전 정보를 통해..

AI/Deep Learning 2024.07.06

Autoregressive Model

Autoregressive: 자동회귀, 자기회귀 AutoRegressive (AR) Model: 자기회귀 모델 ChatGPT 4 says that... Autoregressive model(자기회귀 모델)은 통계학과 신호 처리에서 널리 사용되는 개념으로, 시계열 데이터에서 이전의 관측값들이 현재 관측값에 영향을 미친다고 가정하는 모델입니다. 이 모델의 핵심은 과거의 데이터 포인트가 현재 데이터 포인트를 예측하는 데 사용된다는 점입니다. Diffusion 논문, 특히 딥러닝과 관련된 연구에서 autoregressive model이 언급되는 경우는 주로 생성 모델링과 관련이 있습니다. 여기서 autoregressive model은 데이터의 분포를 학습하고, 이를 바탕으로 새로운 데이터를 순차적으로 생성하는 ..

AI/Deep Learning 2024.03.08

Variational Auto-Encoder (VAE)

Variational Auto-Encoder (VAE) : Input image $x$ 를 잘 표현하는 latent vector $z$ 로 바꾸고, 이 $z$ 를 다시 image $x$ 와 유사하지만 다른 데이터 $x^{\prime}$ 을 생성하는 Generative Model ➡︎ Auto-Encoder 라는 단어가 들어가기 때문에 관련이 있어보이지만, 구조적으로만 비슷해보일뿐, 사용 목적은 다름 Encoder Input $x$ 가 주어졌을 때 latent $z$ 의 분포를 approximate 하는 것이 목표 즉, 평균 $\mu$ 와 표준편차 $\sigma$ 를 구하고 noise $\epsilon$ 을 추가하여 latent $z$ 를 구성 Decoder Latent $z$ 가 주어졌을 때 $x^{\p..

AI/Deep Learning 2024.02.28

Generative Adversarial Nets (GAN) 수식으로 이해

GAN: $G$ 와 $D$ 가 two-player minimax game 을 하는 것 $G$: Generator $D$: Discriminator Minimax game: 게임이론, 결정이론 등에서 쓰이는 것으로 최악의 상황에서 손실을 최소화 하는 방향 Value function: $\min _G \max _D V(D, G)=\mathbb{E}_{\boldsymbol{x} \sim p_{\text {data }}(\boldsymbol{x})}[\log D(\boldsymbol{x})]+\mathbb{E}_{\boldsymbol{z} \sim p_{\boldsymbol{z}}(\boldsymbol{z})}[\log (1-D(G(\boldsymbol{z})))]$ $G$ 의 입장 $\min _G V(D, G..

AI/Deep Learning 2023.09.13

Transfer learning

Transfer Learning (전이학습): ImageNet 1K, 21K 등의 거대한 데이터셋으로 pretrained 된 model을 이용하는 것 Pretrain 의 종류 (Image, Label) 이 주어진 supervised learning Contrastive Learning, MAE 을 이용한 self-supervised learning 이렇게 학습된 모델을 Fine-tune 또는 Linear Probing (Feature extraction) 하여 사용하고 싶은 Task (Classification, Detection, Segmentation) 에 사용 Fine-tune (미세조정): Model 전체 또는 일부의 작은 parameter 와 Linear head 를 downstream task..

AI/Deep Learning 2022.02.15

Mode collapse

Mode Collapse : GAN 에서 학습시키려는 모델이 실제 데이터를 커버하지 못하고 다양성을 잃어버리는 현상 위 그림에서 BSA 의 예시를 보게 되면 모두 다 비슷한 이미지를 생성한다는 것을 관찰할 수 있다. 이런 문제는 Discriminator 와 Generator 학습의 불균형으로 Generator 가 계속 같은 종류의 이미지를 생성하려고 하면서 발생하게 된다. 참고문헌 [1] Li, Yijun, et al. "Few-shot image generation with elastic weight consolidation." arXiv preprint arXiv:2012.02780 (2020).

AI/Deep Learning 2022.01.26

End-to-End Learning

End-to-End : 끝에서 끝을 잇는(종단간), 처음부터 끝까지 End-to-End Learning : 입력에서 출력까지 파이프라인 네트워크(pipeline network) 없이 신경망(neural network)으로 한번에 처리하는 학습 방법 파이프라인 네트워크(pipeline network) : ML에서 문제 정의, 데이터 처리, 모델 구축, 학습, 모델 검정 등의 전체 과정, 간단히 말해서 ML의 절차 일반적으로 생각했을 때 당연히 절차를 나누어서 처리하는 것보다 한 번에 처리하는게 더 효과적이라고 생각할 수 있다. 그러나 신경망에 너무 많은 계층(layer)이나 노드(node)가 있는 경우, 메모리가 부족한 경우에는 사용할 수 없다. 또한 정의한 문제가 복잡할수록 한 번에 처리하기보다 절차를 ..

AI/Deep Learning 2022.01.25