말랑코딩
앵커 박스(Anchor box) 본문
기존 object detection의 최대 단점
- 각각의 격자셀이 오직 하나의 물체만 감지할 수 밖에 없다.
- 이를 해결하기 위한 방법으로 앵커박스 사용.
앵커박스 (anchor box)
- 한 이미지 내에서 두 물체가 한 격자 셀에 나타날 경우를 다루는 방법
- 3x3 격자 셀 대신 19x19 와 같은 격자셀을 사용하면 이러한 경우는 거의 드물게 발생함.
Output y
- 위 그림에서 보는 것처럼, 출력 y는 pc, bx, by, ... 와 같은 값을 출력한다.
- 각 앵커박스는 8개의 값을 부호화하는데,
Pc = 해당 위치에 사람이 있다는 것을 나타냄
Bx,y,h,w = 해당 위치의 좌표
C1,2,3 = 해당 클래스(세개일 때 기준으로, 0번 클래스라고 예측하면 1 0 0 값을 출력) - 결과값 y의 shape = 3x3x16 (격자 3x3이고, class 2개 검출됐을 때 기준)
앵커박스의 장점
- 학습 알고리즘을 전문화시킴. 즉, 특정 물체 감지에 더욱 특화되게 한다.
앵커박스 고르는 방법
- k-means 알고리즘으로 앵커박스 세트를 고름.
- detection 할 물체들의 가장 정형화된 표현을 나타낼 수 있음.
- 자동으로 앵커박스 고르는 방법도 있음.
참고 : https://youtu.be/RTlwl2bv0Tg
'딥러닝' 카테고리의 다른 글
coco dataset json 포맷 파헤치기(annotation) (0) | 2022.02.10 |
---|---|
docker 에서 yolox 데모 실행해보기(ubuntu 18.04) (0) | 2022.02.09 |
7-5. 풀링 계층 구현하기 (0) | 2022.01.05 |
7-4. 합성곱 계층 구현하기 (0) | 2022.01.05 |
7-3. 풀링 계층(Pooling layer) (0) | 2022.01.05 |
Comments