Deep Learning
BERT의 [CLS]토큰은 어떻게 sentence의 정보를 담고 있을까?
BERT와 이로부터 파생된 다양한 언어 모델에서는 가장 첫 위치에 문장 공통 토큰인 [CLS]를 두어 해당 위치의 임베딩 결과를 대표 임베딩으로 사용한다. 예컨대, BERT-base 모델은 토큰의 길이가 512이고 각 토큰 위치에서의 임베딩 output은 768차원 벡터이므로 sentence input 하나에 대한 output 텐서의 shape은 512*768이다. 이 중 가장 앞에 위치한 [CLS] 토큰의 768차원 벡터를 해당 sentence의 대표 임베딩 결과로 사용한다. batch 내 각 문장에 대한 768 차원의 대표 임베딩 결과가 추출된 것이므로 최종 shape은 batch_size * 768 이 된다. 모든 sentence의 첫 번째 token은 언제나 [CLS](special classif..