트랜스포머 토큰 임베딩

Deep Learning

트랜스포머(Transformer)의 토큰 임베딩(Token Embedding) 파헤치기(feat. Tensor)

GPT-1 논문 리뷰를 하던 중 문득 "multi-layer transformer decoder를 사용할 때 input으로 사용할 $h_0$는 어떻게 만들어질까?"라는 궁금증이 들었다. GPT에서 multi-layer transformer decoder를 사용해서 Maksed self-attention을 하기 전에 token들의 context vector(U)와 token embedding matrix($W_e$)를 곱한 후 positional embedding matrix($W_p$)를 더해서 input으로 사용할 $h_0$를 만든다. 이때 각 matrix들의 차원은 어떤 식으로 구성될까? 이를 알기 위해서는 텐서(Tensor)의 개념을 짚고 넘어가야 한다. 딥 러닝을 하게 되면 다루게 되는 가장 기본..

seungseop
'트랜스포머 토큰 임베딩' 태그의 글 목록