본문 바로가기

728x90
반응형
트랜스포머
728x90
반응형
3

Transformer vs CNN, LSTM 비교, Attention is all you need Transformer vs CNN 트랜스포머는 multihead self attention을 사용해 long range dependencies를 잘 모델링한다. Convolution 은 receptive field 가 제한되어 네트워크 depth 가 늘어나면서 linear하게 커진다. 트랜스포머는 귀납적 편향(inductive bias)가 부족해 large scale에서 트랜스포머의 이점이 발견된다. Transformer vs LSTM RNN, LSTM의 약점으로 많이 언급되었던 것은 input을 순차적으로 받아 병렬처리가 어렵다는 점이었다. 순차적으로 입력받는 것이, 각 input의 위치정보를 반영할 수 있게 해주었는데, Transformer는 순차적으로 Data를 넣는 것이 아니라, Sequence를.. 2022. 1. 18.
ViViT: A Video Vision Transformer Abstract video classification을 위한 pure-transformer based models. input video로부터 spatio-temporal tokens을 추출하고 연속된 transformer layers로 encoding. 학습 시 효율적으로 model를 regularise하는 방법으로 기존의 ViT와는 반대로 작은 dataset에서도 좋은 성능. Introduction transformer의 등장 이후 매우 빠른 발전 multi-headed self-attention을 바탕으로 long-range dependencies를 효과적으로 모델링 ⇒ input sequence의 국지적인 요소가 아닌 전체를 볼 수 있었기 때문 ViT (Vision Transformer) ViT는.. 2021. 12. 29.
TransPose: Keypoint Localization via Transformer 이 논문은 pose estimation 분야에 트랜스포머를 적용해 2021년 iccv 에 게재되었는데 cnn 대신 트랜스포머를 적용해 파라미터 수를 줄이고 빠른 속도로 cnn 기반 모델과 비슷한 성능을 달성했습니다. 기존 cnn 기반 모델은 네트워크 구조가 깊고 비선형적이어서 feature 해석이 불가능하고, 특히 cnn 모델들은 localization 보다는 이미지 classification에 초점을 맞추고 있습니다. 따라서 트랜스포머를 사용하면 얻을 수 있는 이점은 두 가지가 있는데, 이미지의 공간 의존성을 명시적으로 포착할 수 있고 컨볼루션의 receptive field 로는 여러 layer를 쌓아 글로벌 의존성을 포착해야 하는 것에 반해 한 개의 어텐션 layer로 모든 pairwise locat.. 2021. 12. 22.