트랜스포머

Deep Learning

Transformer의 Multi-head Attention 파헤치기

*본 포스팅은 자연어처리 스터디를 진행하던 중 생겼던 궁금증을 해결한 후 내용 정리를 하고자 작성하였습니다. 1. Multi-head Attention이란? 트랜스포머 원 논문(Attention is all you need)에서는 한 번의 어텐션을 하는 것보다 여러 번의 어텐션을 병렬로 사용하는 것이 더 효과적이라고 한다. 그래서 d_model의 차원을 num_heads개로 나누어 d_model/num_heads의 차원을 가지는 Q, K, V에 대해서 num_heads개의 병렬 어텐션을 수행한다. 논문에서는 하이퍼파라미터인 num_heads의 값을 8로 지정하였고, 8개의 병렬 어텐션이 이루어지게 된다. 다시 말해 위에서 설명한 어텐션이 8개로 병렬로 이루어지게 되는데, 이때 각각의 어텐션 값 행렬을 어..

Deep Learning

[트랜스포머를 활용한 자연어처리] Chapter1 - 트랜스포머 소개

이전 포스팅 : https://seungseop.tistory.com/20 [트랜스포머를 활용한 자연어처리] - Intro 본 포스팅은 아마존 자연어 처리 분야 베스트 셀러인 [트랜스포머를 활용한 자연어처리]를 기반으로 스터디를 진행하며 매 챕터마다 공부한 내용을 복습하기 위해 작성한다. 이 책의 구성을 하 seungseop.tistory.com 구글의 연구원들은 2017년 논문에서 시퀀스 모델링(sequence modeling)을 위한 새로운 신경망(neural network) 아키텍처를 제안했다. 트랜스포머(Transformer)란 이름의 이 아키텍처는 기계 번역 작업의 품질과 훈련 비용 면에서 RNN(Recurrent neural network)를 능가했다. 트랜스포머는 2023년 현재 가장 유명한..

Deep Learning

[트랜스포머를 활용한 자연어처리] - Intro

본 포스팅은 아마존 자연어 처리 분야 베스트 셀러인 [트랜스포머를 활용한 자연어처리]를 기반으로 스터디를 진행하며 매 챕터마다 공부한 내용을 복습하기 위해 작성한다. 이 책의 구성을 하나로 정리하자면 다음과 같다. 이 책은 최근 대세인 허깅 페이스(Hugging Face) 라이브러리를 활용하여 다양한 NLP 작업을 해결하는 방법을 소개한다. 허깅 페이스의 머신러닝 엔지니어들이 직접 쓴 책으로도 유명하고 의 저자 오렐리앙 제롱이 직접 추천사를 쓰고 크게 칭찬한 책이라고 한다. 자연어처리에 대해 아직 심도있는 학습이 부족한 상태라 이 책을 통해 자연어처리에 대한 견문을 많이 넓힐 것으로 기대한다. Reference http://www.yes24.com/Product/Goods/115633781 트랜스포머를 ..

seungseop
'트랜스포머' 태그의 글 목록