Paper/Learning based method
-
Attention is all you need 리뷰Paper/Learning based method 2019. 10. 29. 13:11
Attention is all you need 참조1 참조2 참조3 참조4 1. Contribution global dependency를 잡아내고 횡방향으로 병렬 연산을 가능하게 하여 학습속도를 높임 RNN 모델을 Attention으로 대체 가능하게 함 2. Background 2.1. ByteNet sequential 한 연산을 줄이자는 목표 hidden representation을 병렬처리하기 위해 CNN활용 distant position 에 있는 dependency는 많은 연산을 필요로 함 2.2. Self Attention = Transformer 이전의 RNN과 함께 사용되던 attention의 경우에는 인코더 측의 hidden variable과 디코더 측의 hidden variable간의 유사..