[딥러닝 / PyTorch] Transformer 구현 (1) Sub Layers
Sub Layers Encoder와 Decoder를 구성하는 Sub Layer로는 Multi-Head Attention과 Position-Wise Fully Connected Feed-Forward Network가 있다. Multi-Head Attention가 내포하는 Scaled Dot-Product Attention까지 총 3가지의 Sub Layer class를 구현하였다. [목차] Multi-Head Attention Scaled Dot-Product Attention Position-Wise Fully Connected Feed-Forward Network 1. Multi-Head Attention Multi-Head 이름은 입력된 Q, K, V 행렬을 Head의 수만큼 나누었기 때문에 붙여졌다...
ML/Transformer
2023. 1. 21.