AI/Deep Learning

Object Pose Estimation, 6DoF, BOP challenge

이성훈 Ethan 2024. 7. 26. 22:00

3D 분야에 흥미가 있는데 generative model 을 다루자니 회사 일과 결이 너무 맞지 않음

 

그래서 3D Object detection 을 찾다가 지나가면서 보기만 했던 6DoF 를 한 번 알아봤음

 

더보기

3D object detection 과 6Dof object pose estimation 의 차이점

 

3D 객체 검출 (3D object detection):

  • 목적: 3D 공간에서 객체의 위치와 크기를 찾는 것
  • 출력: 일반적으로 3D 바운딩 박스 (x, y, z 좌표, 길이, 너비, 높이)
  • 주로 사용되는 분야: 자율주행, 로봇 내비게이션

6DoF 객체 자세 추정 (6Dof object pose estimation):

  • 목적: 객체의 정확한 위치와 방향을 결정하는 것
  • 출력: 6개의 자유도 (3개의 translation + 3개의 rotation)
  • 주로 사용되는 분야: 증강현실, 로봇 조작, 산업용 자동화

 

주요 차이점:

  1. 정밀도: 6DoF 추정이 일반적으로 더 정밀한 결과를 제공
  2. 방향 정보: 3D 검출은 주로 위치와 크기에 초점을 맞추지만, 6DoF는 객체의 정확한 방향까지 추정
  3. 응용 분야: 각각의 기술이 더 적합한 응용 분야가 다름

 

그동안 Human Pose Estimation 은 꾸준히 보고 다루어왔지만 Object 는 detection 을 제외하곤 처음


- Introduction

 

6 DoF 란?

 

6 DoF: 6 Degrees of Freedom 의 준말로 한국말로는 6 자유도라고도 함

 

3차원 공간에서의 6개의 운동 방향을 뜻하며, AR, VR, 로봇 등 다양한 분야에 사용됨

 

  • Translations
    • Surge - x축 이동
    • Sway - y축 이동
    • Heave - z축 이동

 

  • Rotations
    • Roll - x축 회전
    • Pitch - y축 회전
    • Yaw - z축 회전

 

출처: 위키백과


 

*3 DoF

 

좌우, 상하, 회전


- 6Dof object pose estimation

 

  • Instance-Level Methods
    • 한 가지 물체에 대해서 한 가지 모델 필요
  • Category-Level Methods
    • 같은 class 를 가지는 물체들에 대해서 가능
  • Unseen Object Methods
    • Train 과정에서 본 적 없는 물체에 대해 generalize
    • 현재 가장 유망한 분야

이 분류만 봤을 땐, NeRF 와 상당히 비슷한 상황이라고 생각됨

 


- Datasets

 

 

BOP Challenge Datasets

  • BOP Classic Core (메인)
    1. LM-O
    2. YCB-V
    3. T-LESS
    4. ITODD
    5. HB
    6. IC-BIN
    7. TUD-L
  • BOP H3
    1. HOT3D
    2. HANDAL
    3. HOPEv2
  • BOP Classic Extras
    1. LM
    2. HOPEv1
    3. RU-APC
    4. IC-MI
    5. TYO-L

LM-O (Linemod Occlusion)

LM 을 확장

1214 RGBD 이미지

8개의 다양한 occlusion 이 적용된 objects

 

YCB-V (YCB-Video)

92 RGBD 시퀀스

21개의 일상 물체

복잡한 장면과 다양한 조명

 

T-LESS

질감이 없는 대칭적인 물체 (texture-less)

50000장의 RGBD 실제 이미지

30 개의 산업용 물체

물체간 유사성이 높아 구별이 어려움

 

ITODD (MVTec ITODD)

28개의 금속 산업용 물체

반사가 많고 질감이 적음

RGBD 이미지

 

HB (HomebrewedDB)

17개의 다양한 가정용 물체

RGBD 이미지


IC-BIN (Doumanoglou et al.)

산업용 부품들이 bin 안에 무작위로 쌓인 상태

RGBD 이미지

 

TUD-L (TUD Light)

다양한 조명 조건의 여러 개의 일상 물체

RGBD 이미지

 


 

HOPEv2 (NVIDIA Household Objects for Pose Estimation) - (BOP 2024)

다양한 가정용 물체

고해상도 RGBD

NVIDIA 에서 첨단 기술을 이용해서 만든 데이터셋

 

HOT3D

수백개의 다양한 가정용 물체

고해상도 RGBD

egocentric hand and object training

 

HANDAL - Coming Soon (BOP 2024)

40개의 물체, 7개의 카테고리

 


 

LM (Linemod)

15개의 RGBD 시퀀스

household objects

 

IC-MI (Tejani et al.)

 

RU-APC (Rutgers APC)

 

Toyota Light (TYO-L)

 

Other Datasets

 

보류하고 skip


- Reference

 

[1] Liu, Jian, et al. "Deep Learning-Based Object Pose Estimation: A Comprehensive Survey." arXiv 2024 [Paper link]

 

[2] https://github.com/CNJianLiu/Awesome-Object-Pose-Estimation

 

[3] https://bop.felk.cvut.cz/challenges/

 

'AI > Deep Learning' 카테고리의 다른 글

Convolutional Neural Networks (CNN)  (0) 2024.07.06
Self Attention, Cross Attention  (0) 2024.03.11
Autoregressive Model  (0) 2024.03.08
Variational Auto-Encoder (VAE)  (0) 2024.02.28
Generative Adversarial Nets (GAN) 수식으로 이해  (0) 2023.09.13