STUDY/paper review

2. HigherHRNet (scale-Aware Representation Learning for Bottom-Up Human Pose Estimation)

officialhoyoon 2024. 3. 18. 10:23

 

 

2D human posee esimation

-팔꿈치 같은 사람의 신체관절들을 localization 하는 문제 

-2D estimation의 경우 x,y좌표만 예측 

-성능평가 : PCK(percentage of Correct Keypoint) , Object Keypoint Similarity(OKS) 

                  사용하는 데이터에 따라서 성능평가가 다름

 

Pose estimation 

Top-down method

- input 이미지에서 사람을 bounding box 형태로 detect 해놓는 것임 

- 한 사람의 post estimation task를 진행함. 

- cropping 과 resizing 을 통해 normalize를 하기 때문에 scale의 변화에 민감하지 않음 

-SOTA 또한 대부분 이방식의 알고리즘에서 달성됨( 'SOTA'는 'State-of-the-art'의 약자로, '현재 최고 수준의 결과'를 가진 모델)

- 각각의 사람마다 다르게 pose estimate를 해야하기 때문에 computation 과 더불어 진정한 end- to -end는 아님   

 

Bottom-up method

-모든 사람들의 keypoints들을 먼저 identity-free 하게 localizing 함. 

-이 keypoint 들의 상관관계를 통해 grouping해서 사람화를 함

-Detection을 진행하지 않기 때문에 빠른 속도라는 이점으로 Real-time에 적합

-정확도가 낮고 scale에 따라 영향을 많음(scale의 사람의 경우 정확도가 매우 낮음) 

 

feature pyramid와 high resolution feature map을 통해 해결!!! 

 

Feature pyramid 

-object detection 이나 segmentation에서 scale variation 문제를 다루기 위해 자주 사용 

-input 이미지 화질의 1/32 부터 1/4 까지의 특징맵을 형성 

-top-down에는 적합하나 bottom-up 방식에는 적합하지 않음. 

 

high resolution feature map 

-dilated convolution 

-HRNet

 

 

Heatmap prediction using image pyramid 

기존의 feature map의 경우 인풋 이미지의 1/4 정도의 해상도를 가지고 keypoint들의 heatmap을 예측함. 

==> small person을 잘 탐지 못하는 경우가 발생

==> 그래서 해상도를 높이게 되면 large person을 잘 탐지 못하는 문제가 발생하게 됨. 

 

so, 이미지는 1/4정도의 해상도를 사용하되 HHRNet을 사용해서 고화질 heatmap을 생성함. 

 

Higher HRNet

 

- Backbone은 HRNet 

- Bottom-up 방식인 1/4에서의 시작도 충분하지 않다고 생각함. ==> deconvolution을 진행 1/2 featuremap을 만듬 

 

 

Experiment 

COCO keypoint detection ==> OKS

 

 

-Bottom-up pose estimation 에서의 challenge인 scale variation에도 robust한 알고리즘을 만들기 위함. 

-고해상도의 heatmap을 통해 small person 또한 잘 예측하고자 함. 

-COCO dataset을 이용한 실험으로 현존하는 bottom-up 방법 중 가장 효율적이고 높은 성능을 보임

 

 

참고

https://www.youtube.com/watch?v=7AtbLCFlbNo&list=PL_skMddDjnzq1wDI3t2cH9hlK6wBBapeA&index=38