3D 분야에 흥미가 있는데 generative model 을 다루자니 회사 일과 결이 너무 맞지 않음
그래서 3D Object detection 을 찾다가 지나가면서 보기만 했던 6DoF 를 한 번 알아봤음
3D object detection 과 6Dof object pose estimation 의 차이점
3D 객체 검출 (3D object detection):
- 목적: 3D 공간에서 객체의 위치와 크기를 찾는 것
- 출력: 일반적으로 3D 바운딩 박스 (x, y, z 좌표, 길이, 너비, 높이)
- 주로 사용되는 분야: 자율주행, 로봇 내비게이션
6DoF 객체 자세 추정 (6Dof object pose estimation):
- 목적: 객체의 정확한 위치와 방향을 결정하는 것
- 출력: 6개의 자유도 (3개의 translation + 3개의 rotation)
- 주로 사용되는 분야: 증강현실, 로봇 조작, 산업용 자동화
주요 차이점:
- 정밀도: 6DoF 추정이 일반적으로 더 정밀한 결과를 제공
- 방향 정보: 3D 검출은 주로 위치와 크기에 초점을 맞추지만, 6DoF는 객체의 정확한 방향까지 추정
- 응용 분야: 각각의 기술이 더 적합한 응용 분야가 다름
그동안 Human Pose Estimation 은 꾸준히 보고 다루어왔지만 Object 는 detection 을 제외하곤 처음
- Introduction
6 DoF 란?
6 DoF: 6 Degrees of Freedom 의 준말로 한국말로는 6 자유도라고도 함
3차원 공간에서의 6개의 운동 방향을 뜻하며, AR, VR, 로봇 등 다양한 분야에 사용됨
- Translations
- Surge - x축 이동
- Sway - y축 이동
- Heave - z축 이동
- Rotations
- Roll - x축 회전
- Pitch - y축 회전
- Yaw - z축 회전
*3 DoF
좌우, 상하, 회전
- 6Dof object pose estimation
- Instance-Level Methods
- 한 가지 물체에 대해서 한 가지 모델 필요
- Category-Level Methods
- 같은 class 를 가지는 물체들에 대해서 가능
- Unseen Object Methods
- Train 과정에서 본 적 없는 물체에 대해 generalize
- 현재 가장 유망한 분야
이 분류만 봤을 땐, NeRF 와 상당히 비슷한 상황이라고 생각됨
- Datasets
BOP Challenge Datasets
- BOP Classic Core (메인)
- LM-O
- YCB-V
- T-LESS
- ITODD
- HB
- IC-BIN
- TUD-L
- BOP H3
- HOT3D
- HANDAL
- HOPEv2
- BOP Classic Extras
- LM
- HOPEv1
- RU-APC
- IC-MI
- TYO-L
LM-O (Linemod Occlusion)
LM 을 확장
1214 RGBD 이미지
8개의 다양한 occlusion 이 적용된 objects
YCB-V (YCB-Video)
92 RGBD 시퀀스
21개의 일상 물체
복잡한 장면과 다양한 조명
T-LESS
질감이 없는 대칭적인 물체 (texture-less)
50000장의 RGBD 실제 이미지
30 개의 산업용 물체
물체간 유사성이 높아 구별이 어려움
ITODD (MVTec ITODD)
28개의 금속 산업용 물체
반사가 많고 질감이 적음
RGBD 이미지
HB (HomebrewedDB)
17개의 다양한 가정용 물체
RGBD 이미지
IC-BIN (Doumanoglou et al.)
산업용 부품들이 bin 안에 무작위로 쌓인 상태
RGBD 이미지
TUD-L (TUD Light)
다양한 조명 조건의 여러 개의 일상 물체
RGBD 이미지
HOPEv2 (NVIDIA Household Objects for Pose Estimation) - (BOP 2024)
다양한 가정용 물체
고해상도 RGBD
NVIDIA 에서 첨단 기술을 이용해서 만든 데이터셋
HOT3D
수백개의 다양한 가정용 물체
고해상도 RGBD
egocentric hand and object training
HANDAL - Coming Soon (BOP 2024)
40개의 물체, 7개의 카테고리
LM (Linemod)
15개의 RGBD 시퀀스
household objects
IC-MI (Tejani et al.)
RU-APC (Rutgers APC)
Toyota Light (TYO-L)
Other Datasets
보류하고 skip
- Reference
[1] Liu, Jian, et al. "Deep Learning-Based Object Pose Estimation: A Comprehensive Survey." arXiv 2024 [Paper link]
[2] https://github.com/CNJianLiu/Awesome-Object-Pose-Estimation
[3] https://bop.felk.cvut.cz/challenges/
'AI > Deep Learning' 카테고리의 다른 글
Convolutional Neural Networks (CNN) (0) | 2024.07.06 |
---|---|
Self Attention, Cross Attention (0) | 2024.03.11 |
Autoregressive Model (0) | 2024.03.08 |
Variational Auto-Encoder (VAE) (0) | 2024.02.28 |
Generative Adversarial Nets (GAN) 수식으로 이해 (0) | 2023.09.13 |