728x90 반응형 AI/트랜스포머 728x90 반응형 3 Swin Transformer 논문 리뷰 - Hierarchical Vision Transformer using Shifted Windows Ze Liu† / Yutong Lin† / Yue Cao / Han Hu / Yixuan Wei† / Zheng Zhang / Stephen Lin / Baining Guo ICCV 2021 에 발표된 Microsoft Research Asia의 논문 Swin Transformer 리뷰입니다. 😊 Motivation & Contributions Language 분야와 달리 비전 분야에 고화질 픽셀의 규모에 대해 트랜스포머를 적용하기 어려움을 지적하고 Hierarchical transformer 구조를 활용하고 window 내 어텐션을 통해 효율적으로 성능을 개선합니다. 이 논문은 Hierarchical Transformer를 통해 다양한 스케일에 대해 flexible한 모델을 만들 수 있고, 이미지 크기.. 2022. 6. 26. Transformer vs CNN, LSTM 비교, Attention is all you need Transformer vs CNN 트랜스포머는 multihead self attention을 사용해 long range dependencies를 잘 모델링한다. Convolution 은 receptive field 가 제한되어 네트워크 depth 가 늘어나면서 linear하게 커진다. 트랜스포머는 귀납적 편향(inductive bias)가 부족해 large scale에서 트랜스포머의 이점이 발견된다. Transformer vs LSTM RNN, LSTM의 약점으로 많이 언급되었던 것은 input을 순차적으로 받아 병렬처리가 어렵다는 점이었다. 순차적으로 입력받는 것이, 각 input의 위치정보를 반영할 수 있게 해주었는데, Transformer는 순차적으로 Data를 넣는 것이 아니라, Sequence를.. 2022. 1. 18. ViViT: A Video Vision Transformer Abstract video classification을 위한 pure-transformer based models. input video로부터 spatio-temporal tokens을 추출하고 연속된 transformer layers로 encoding. 학습 시 효율적으로 model를 regularise하는 방법으로 기존의 ViT와는 반대로 작은 dataset에서도 좋은 성능. Introduction transformer의 등장 이후 매우 빠른 발전 multi-headed self-attention을 바탕으로 long-range dependencies를 효과적으로 모델링 ⇒ input sequence의 국지적인 요소가 아닌 전체를 볼 수 있었기 때문 ViT (Vision Transformer) ViT는.. 2021. 12. 29. 이전 1 다음