본문 바로가기

고려대학교 대학원 인공지능학과 학석사 연계과정 석사 (이성환 교수님 PRML 연구실) 바로가기

728x90

반응형

AI

728x90

반응형

28

TransPose: Keypoint Localization via Transformer 이 논문은 pose estimation 분야에 트랜스포머를 적용해 2021년 iccv 에 게재되었는데 cnn 대신 트랜스포머를 적용해 파라미터 수를 줄이고 빠른 속도로 cnn 기반 모델과 비슷한 성능을 달성했습니다. 기존 cnn 기반 모델은 네트워크 구조가 깊고 비선형적이어서 feature 해석이 불가능하고, 특히 cnn 모델들은 localization 보다는 이미지 classification에 초점을 맞추고 있습니다. 따라서 트랜스포머를 사용하면 얻을 수 있는 이점은 두 가지가 있는데, 이미지의 공간 의존성을 명시적으로 포착할 수 있고 컨볼루션의 receptive field 로는 여러 layer를 쌓아 글로벌 의존성을 포착해야 하는 것에 반해 한 개의 어텐션 layer로 모든 pairwise locat.. 2021. 12. 22.

FCPose: Fully Convolutional Multi-Person Pose Estimation with Dynamic Instance-Aware Convolutions 논문 리뷰 [W. Mao et al., 2021] 이 논문은 pose estimation 분야에 대해 연구한 논문으로 2021 CVPR에 개제되었습니다. 2d pose estimation 분야가 bbox 를 이용하는 top-down, 조인트를 찾아 연결하는 bottom-up 방식이 있는데, 이 논문은 둘다 사용하지 않고 conv layer만 사용해 성능을 높였고, 모델을 가볍게 만들었습니다. 방금 말씀드린 것처럼 이 논문은 ROI, group-free end to end 방식을 채택했고, conv layer만 사용해 13배 빠르고 가벼운 네트워크를 만들었습니다. 이는 키포인트 헤드의 다이나믹 필터의 스트롱 representation을 사용해 가능했는데요. 이 논문에서는 인스턴스 aware한 키포인트 헤드를 사용해 각 사람에게 집중할 수 있게 합니다. 각.. 2021. 11. 25.

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis Abstract. Novel view synthesis ⇒ input:sparsely sampled 된 여러장 이미지 ⇒output input으로 주지 않았던 새로운 뷰에대한 이미지 합성. 복셀 cnn 처리 용이 큐브 인풋. 이용한 mlp로 파라미터화 된 연속 함수 xy 주고 rgb out 2차원. 3차원 좌표 기반 표현 어떻게? xyz가 물체 안일때 network 입력시 음수 밖일때 양수 piff 논문 ⇒ color 대략 복원. 3차원 좌표로 3d 장면 표현 불충분 ⇒ input xyztheta phi ⇒ out rgb, output density 물체가 볼륨 어떻게 차지하는지. 그림 1: 입력 이미지 집합에서 장면의 연속적인 5D Nerf 표현(연속 위치에서 볼륨 밀도, 뷰 의존적 컬러)을 최적화하는.. 2021. 11. 8.

Crowdpose: Efficient crowded scenes pose estimation and a new benchmark 최근에 저는 PoseTrack Dataset으로 실험을 진행해보고 있는데, video 데이터에서 어떻게 하면 pose estimation을 좀 더 잘 할 수 있을까 생각해보다가 Crowdpose: Efficient crowded scenes pose estimation and a new benchmark 를 읽어보게 되었습니다. 이 논문에서는 사람이 많은 영상 속에서 포즈를 잘 예측하기 위해 싱글 person 포즈 estimation에 joint candidate loss를 적용하고 global association 그래프 모델을 활용하여 joint candidate 중 맞는 joint를 골라 포즈를 estimation합니다. 먼저 일반 싱글 person pose estimation은 receptive .. 2021. 10. 17.

Learning Correspondence from the Cycle-consistency of Time 그림 1: raw 비디오에서 시각적 대응에 대한 representation을 배울 것을 제안합니다. 획득한 representation은 미세 조정 없이 시각적 대응과 관련된 다양한 작업으로 일반화되어 (a) 다중 인스턴스 마스크, (b) 포즈, (c) 시맨틱 마스크, (d) 장거리 optical flow, (e) 텍스처를 propagate. Abstract 레이블이 지정되지 않은 비디오에서 시각적 대응을 학습하기 위한 self-supervised 방법. 주요 아이디어는 시각 representation을 처음부터 학습하기 위한 free supervisory signal로 시간에 따른 주기 일관성을 사용 Train 시 모델은 cycle-consistent tracking 을 수행하는 데 유용한 feature.. 2021. 9. 26.

PoseTrack 2017, 2018, COCO Dataset 키포인트 관절 비교 Joint index index 2017 2018 index diff COCO 0 Right Ankle Nose 13, 0 Nose 1 Right Knee Head Bottom 12, 1 Left Eye 2 Right Hip Head Top 14, 2 Right Eye 3 Left Hip Left Ear _, 3 Left Ear 4 Left Knee Right Ear _, 4 Right Ear 5 Left Ankle Left Shoulder 9, 5 Left Shoulder 6 Right Wrist Right Shoulder 8, 6 Right Shoulder 7 Right Elbow Left Elbow 10, 7 Left Elbow 8 Right Shoulder Right Elbow 7, 8 Right.. 2021. 9. 16.

Learning Temporal Pose Estimation from Sparsely-Labeled Videos Abstract 비디오에서 다인칭 포즈 추정을 위한 현대적인 접근 방식은 많은 양의 고밀도 주석을 필요로 합니다. 그러나 비디오의 모든 프레임에 라벨을 부착하는 것은 비용이 많이 들고 노동력이 많이 듭니다. 고밀도 주석의 필요성을 줄이기 위해, 고밀도 시간적 포즈 전파 및 추정을 수행하는 방법을 배우기 위해 sparsely labeled train 비디오(매 k 프레임)를 활용하는 PoseWarper 네트워크를 제안합니다. 비디오 프레임 쌍(프레임 A와 라벨이 부착되지 않은 프레임 B)이 주어진 경우, A와 B 사이의 포즈 뒤틀림을 암묵적으로 학습하기 위해 프레임 B의 기능을 사용하여 프레임 A에서 인간의 자세를 예측하도록 모델을 훈련합니다. 훈련된 PoseWarper를 여러 애플리케이션에 활용할 수 있.. 2021. 9. 2.

Deep Dual Consecutive Network for Human Pose Estimation Abstract 복잡한 상황에서의 멀티 프레임 휴먼 포즈 예측은 어렵다. 정적 이미지에 대해 놀라운 결과를 보여주었지만 비디오 시퀀스에 이러한 모델을 적용하면 성능이 저하된다. 비디오의 문제점 - 비디오 프레임 간의 시간 의존성을 캡처하지 못해 발생하는 모션 블러, 비디오 아웃포커스 또는 occlusion. 기존의 반복 신경망을 직접 사용하는 것은 공간적 맥락, 특히 occlusion를 다루는 데 있어 경험적 어려움을 야기한다. 이 논문에서는 키포인트 감지를 용이하게 하기 위해 비디오 프레임 사이의 풍부한 시간적 신호를 활용하여 새로운 멀티 프레임 휴먼 포즈 추정 프레임워크를 제안한다. 여기엔 세 가지 모듈식 구성요소가 설계되어 있습니다. Pose Residual Fusion 모듈이 weighted 포즈.. 2021. 8. 27.

A Graph Attention Spatio-temporal Convolutional Network for 3D Human Pose Estimation in Video Abstract—시공간 정보는 3D 포즈 추정에서 폐색 및 깊이 모호성을 해결하는 데 중요합니다. 이전의 방법은 고정 길이의 시공간 정보를 포함하는 시간적 컨텍스트 또는 로컬에서 전역적 아키텍처에 초점을 맞췄습니다. 현재까지, 다양한 시공간 시퀀스를 동시에 유연하게 캡처하고 실시간 3D 포즈 추정을 효과적으로 달성하기 위한 효과적인 제안은 없었습니다. 본 연구에서는 주의 메커니즘을 통해 국소 및 전역 공간 정보를 모델링하여 인간 골격의 운동학적 제약 조건, 즉 자세, 국소 운동학적 연결 및 대칭에 대한 학습을 개선합니다. 단일 및 다중 프레임 추정에 적응하기 위해 확장 시간 모델을 사용하여 다양한 골격 시퀀스를 처리합니다. 또한, 중요한 것은, 우리는 시너지 효과를 달성하기 위해 시간적 의존성을 가진 공.. 2021. 7. 30.

Keep It SMPL: Automatic Estimation of 3D Human Pose and Shape from a Single Image Simplify - Abstract 단일 제한되지 않은 이미지에서 인체의 3D 자세와 3D 모양을 자동으로 추정하는 첫 번째 방법 제안. 전체 3D 메쉬를 추정하여 2D 조인트만으로도 체형에 대한 정보를 얻을 수 있습니다. 사용 방법 3D 메쉬 추정은 인체의 복잡성, 관절, 폐색, 의류, 조명, 그리고 2D에서 3D를 추론하는 내재적 모호성 때문에 어렵지만 이를 해결하기 위해 먼저 최근 발표된 CNN 기반 방법인 DeepCut을 사용하여 2D 신체 관절 위치를 예측(bottom-up)합니다. 그런 다음 SMPL이라는 최근 발표된 통계 체형 모델을 2D 관절에 맞춥니다(top-down). 투사된 3D 모델 조인트와 검출된 2D 조인트 사이의 오차에 불이익을 주는 objective function을 최소화함.. 2021. 7. 29.

이전 1 2 3 다음

티스토리툴바