728x90 반응형 컴퓨터비전 728x90 반응형 19 2D Pose estimation 연구 시작 & 강의 추천 강의 소개 안녕하세요! 3월 초 제 포즈 추정 강의가 오픈되었습니다! 인프런에서 오픈되었는데요. 최근에 대학원 석사과정을 졸업하면서 그동안 연구했던 포즈 추정에 대해 집약적으로 빠르게 연구를 시작하는 방법, 혹은 졸업 프로젝트나 공모전 등에서 더이상 Object Detection 객체 인식이 아니라 포즈 추정을 빠르게 적용해볼 수 있게 강의가 구성되어 있습니다. 아래에 강의 링크를 올려두었으니 한 번 확인해보세요! https://www.inflearn.com/course/기초실전-2d-인간-포즈추정 대학원 졸업생이 알려주는 기초 + 실전 2D Pose estimation 따라하기 - 인프런 | 강의 포즈 추정의 최신 트렌드, 이미지와 비디오에서 포즈 추정을 하는 최신 방법에 대해 배우고, 나만의 동영상에.. 2023. 3. 12. 고려대학교 정보대학 인공지능학과 이성환 교수님 PRML연구실 학석사 연계과정 (석사) 합격 후기 석사 3학기 차이지만 준비하시는 분들 혹시나 도움이 될까 해서 이제라도 글 남겨보려고 합니다. 원래 취미 블로그로 활용할 생각이었기도 했구요.😅 저는 고려대학교 인공지능 이성환 교수님 연구실에서 석사과정 중인 대학원생입니다! 학사는 본교 컴퓨터학과와 인공지능 융합전공을 공부했고, 학석사 연계과정은 제 중학생 때부터 친구였던 같은 인공지능 공부 중인 친구로부터 알게 되어서 지원했는데 잘 붙어서 1년 단축이라는 이점을 잘 누리고 있어요.ㅎㅎ 그래서 따로 다른 학교 인공지능학과는 지원하지 않았었습니다. 학부생 때 성적은 전체평점 3.99 / 4.5, 전공평점 4.02 / 4.5, 융합전공 평점 4.1667/ 4.5 이렇게 됩니다! 학점이 생각보다 중요한 거 같아요. 면접 후기 저는 코로나 때 면접을 봐서 비대.. 2022. 9. 12. Transformer vs CNN, LSTM 비교, Attention is all you need Transformer vs CNN 트랜스포머는 multihead self attention을 사용해 long range dependencies를 잘 모델링한다. Convolution 은 receptive field 가 제한되어 네트워크 depth 가 늘어나면서 linear하게 커진다. 트랜스포머는 귀납적 편향(inductive bias)가 부족해 large scale에서 트랜스포머의 이점이 발견된다. Transformer vs LSTM RNN, LSTM의 약점으로 많이 언급되었던 것은 input을 순차적으로 받아 병렬처리가 어렵다는 점이었다. 순차적으로 입력받는 것이, 각 input의 위치정보를 반영할 수 있게 해주었는데, Transformer는 순차적으로 Data를 넣는 것이 아니라, Sequence를.. 2022. 1. 18. mAP 계산 (mean Average Precision) for Object Detection, pose estimation mAP (mean Average Precision) 은 컴퓨터비전 분야인 object detection, 최근에는 pose estimation 분야에서도 모델 평가에 사용되는 지표다. 이를 이해하려면 precision 과 recall에 대해 알아야 하는데 머신러닝 수업에서 많이 들어봤을 것이다. ground truth \ prediction Positive Negative Positive True Positive Fasle Negative Negative False Positive True Negative $$Precision = \frac{TP}{TP+FP}$$ $$Recall = \frac{TP}{TP+FN}$$ 즉 precision 은 옳다고 예측한 것들 중에 실제 옳은 것의 비율, recall은 .. 2022. 1. 15. ViViT: A Video Vision Transformer Abstract video classification을 위한 pure-transformer based models. input video로부터 spatio-temporal tokens을 추출하고 연속된 transformer layers로 encoding. 학습 시 효율적으로 model를 regularise하는 방법으로 기존의 ViT와는 반대로 작은 dataset에서도 좋은 성능. Introduction transformer의 등장 이후 매우 빠른 발전 multi-headed self-attention을 바탕으로 long-range dependencies를 효과적으로 모델링 ⇒ input sequence의 국지적인 요소가 아닌 전체를 볼 수 있었기 때문 ViT (Vision Transformer) ViT는.. 2021. 12. 29. TransPose: Keypoint Localization via Transformer 이 논문은 pose estimation 분야에 트랜스포머를 적용해 2021년 iccv 에 게재되었는데 cnn 대신 트랜스포머를 적용해 파라미터 수를 줄이고 빠른 속도로 cnn 기반 모델과 비슷한 성능을 달성했습니다. 기존 cnn 기반 모델은 네트워크 구조가 깊고 비선형적이어서 feature 해석이 불가능하고, 특히 cnn 모델들은 localization 보다는 이미지 classification에 초점을 맞추고 있습니다. 따라서 트랜스포머를 사용하면 얻을 수 있는 이점은 두 가지가 있는데, 이미지의 공간 의존성을 명시적으로 포착할 수 있고 컨볼루션의 receptive field 로는 여러 layer를 쌓아 글로벌 의존성을 포착해야 하는 것에 반해 한 개의 어텐션 layer로 모든 pairwise locat.. 2021. 12. 22. FCPose: Fully Convolutional Multi-Person Pose Estimation with Dynamic Instance-Aware Convolutions 논문 리뷰 [W. Mao et al., 2021] 이 논문은 pose estimation 분야에 대해 연구한 논문으로 2021 CVPR에 개제되었습니다. 2d pose estimation 분야가 bbox 를 이용하는 top-down, 조인트를 찾아 연결하는 bottom-up 방식이 있는데, 이 논문은 둘다 사용하지 않고 conv layer만 사용해 성능을 높였고, 모델을 가볍게 만들었습니다. 방금 말씀드린 것처럼 이 논문은 ROI, group-free end to end 방식을 채택했고, conv layer만 사용해 13배 빠르고 가벼운 네트워크를 만들었습니다. 이는 키포인트 헤드의 다이나믹 필터의 스트롱 representation을 사용해 가능했는데요. 이 논문에서는 인스턴스 aware한 키포인트 헤드를 사용해 각 사람에게 집중할 수 있게 합니다. 각.. 2021. 11. 25. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis Abstract. Novel view synthesis ⇒ input:sparsely sampled 된 여러장 이미지 ⇒output input으로 주지 않았던 새로운 뷰에대한 이미지 합성. 복셀 cnn 처리 용이 큐브 인풋. 이용한 mlp로 파라미터화 된 연속 함수 xy 주고 rgb out 2차원. 3차원 좌표 기반 표현 어떻게? xyz가 물체 안일때 network 입력시 음수 밖일때 양수 piff 논문 ⇒ color 대략 복원. 3차원 좌표로 3d 장면 표현 불충분 ⇒ input xyztheta phi ⇒ out rgb, output density 물체가 볼륨 어떻게 차지하는지. 그림 1: 입력 이미지 집합에서 장면의 연속적인 5D Nerf 표현(연속 위치에서 볼륨 밀도, 뷰 의존적 컬러)을 최적화하는.. 2021. 11. 8. Crowdpose: Efficient crowded scenes pose estimation and a new benchmark 최근에 저는 PoseTrack Dataset으로 실험을 진행해보고 있는데, video 데이터에서 어떻게 하면 pose estimation을 좀 더 잘 할 수 있을까 생각해보다가 Crowdpose: Efficient crowded scenes pose estimation and a new benchmark 를 읽어보게 되었습니다. 이 논문에서는 사람이 많은 영상 속에서 포즈를 잘 예측하기 위해 싱글 person 포즈 estimation에 joint candidate loss를 적용하고 global association 그래프 모델을 활용하여 joint candidate 중 맞는 joint를 골라 포즈를 estimation합니다. 먼저 일반 싱글 person pose estimation은 receptive .. 2021. 10. 17. Learning Correspondence from the Cycle-consistency of Time 그림 1: raw 비디오에서 시각적 대응에 대한 representation을 배울 것을 제안합니다. 획득한 representation은 미세 조정 없이 시각적 대응과 관련된 다양한 작업으로 일반화되어 (a) 다중 인스턴스 마스크, (b) 포즈, (c) 시맨틱 마스크, (d) 장거리 optical flow, (e) 텍스처를 propagate. Abstract 레이블이 지정되지 않은 비디오에서 시각적 대응을 학습하기 위한 self-supervised 방법. 주요 아이디어는 시각 representation을 처음부터 학습하기 위한 free supervisory signal로 시간에 따른 주기 일관성을 사용 Train 시 모델은 cycle-consistent tracking 을 수행하는 데 유용한 feature.. 2021. 9. 26. 이전 1 2 다음