기존 sequence 모델(RNN) 기존 sequence transduction model들은 인코더와 디코더를 포함한 복잡한 recurrent, cnn에 기반합니다. RNN은 순환구조를 이루는 인공신경망의 한 종류입니다. 음성, 문자 등 순차적으로 등장하는 데이터 처리에 적합한 모델입니다. 시간이 흐르는 기준으로 펼쳐놓고 봐야 하기 때문에 순차적인 연산이 필요합니다.(인코더,디코더당 각 하나의RNN) Transformer 최근 1~2년 사이에 많은 모델들이 CNN기반->Transformer기반 모델입니다. Transformer구조를 사용한 Architecture가 수 많은 SOTA를 찍고 있습니다. ViT : An Image Worth 16 x 16 Words - Image Classification의..