728x90 반응형 어텐션 728x90 반응형 1 Transformer vs CNN, LSTM 비교, Attention is all you need Transformer vs CNN 트랜스포머는 multihead self attention을 사용해 long range dependencies를 잘 모델링한다. Convolution 은 receptive field 가 제한되어 네트워크 depth 가 늘어나면서 linear하게 커진다. 트랜스포머는 귀납적 편향(inductive bias)가 부족해 large scale에서 트랜스포머의 이점이 발견된다. Transformer vs LSTM RNN, LSTM의 약점으로 많이 언급되었던 것은 input을 순차적으로 받아 병렬처리가 어렵다는 점이었다. 순차적으로 입력받는 것이, 각 input의 위치정보를 반영할 수 있게 해주었는데, Transformer는 순차적으로 Data를 넣는 것이 아니라, Sequence를.. 2022. 1. 18. 이전 1 다음