상세 컨텐츠

본문 제목

Transformers architecture

Generative AI with Large Language Models

by Taeyoon.Kim.DS 2023. 8. 21. 18:44

본문

https://www.coursera.org/learn/generative-ai-with-llms/lecture/3AqWI/transformers-architecture

The transformer architecture brought a significant improvement in natural language tasks compared to earlier RNN-based models, primarily due to its ability to learn word relevance and context comprehensively. Transformers employ self-attention, allowing them to understand the relationship between all words in a sentence, enhancing language encoding. Self-attention is illustrated through attention maps, showing how words interact.

The transformer architecture consists of an encoder and a decoder, both handling inputs represented as tokenized numbers. Tokenization converts words into numerical tokens, and embeddings create vectors representing each token's meaning and context. Positional encoding preserves word order. After combining tokens and positional encodings, self-attention layers analyze token relationships. Transformers have multi-headed self-attention, allowing different heads to learn various aspects of language independently.

Once attention is applied, the output goes through a feed-forward network, generating logits. A softmax layer normalizes logits into probability scores for each word in the vocabulary. The word with the highest score is the predicted token, but various methods can be used for final selection.

 

트랜스포머 아키텍처는 이전의 RNN 기반 모델과 비교하여 자연어 처리 작업에서 큰 개선을 가져왔으며, 주로 단어의 관련성과 문맥을 포괄적으로 학습할 수 있는 능력 때문입니다. 트랜스포머는 자기 주의(self-attention)를 사용하여 문장 내 모든 단어 간의 관계를 이해하고 언어 인코딩을 향상시킵니다. 자기 주의는 단어 간 상호 작용을 보여주는 주의 맵(attention map)을 통해 설명됩니다.

트랜스포머 아키텍처는 인코더와 디코더로 구성되며 입력을 토큰화된 숫자로 처리합니다. 토큰화는 단어를 숫자 토큰으로 변환하고, 임베딩은 각 토큰의 의미와 문맥을 나타내는 벡터를 생성합니다. 위치 인코딩은 단어 순서를 보존합니다. 토큰과 위치 인코딩을 결합한 후, 자기 주의 레이어가 토큰 간의 관계를 분석합니다. 트랜스포머는 다중 헤드 자기 주의를 가지며, 각 헤드는 독립적으로 다양한 언어 측면을 학습할 수 있도록 합니다.

주의가 적용되면 출력은 피드포워드 네트워크를 통해 로짓으로 처리되어 확률 점수로 변환됩니다. 소프트맥스 레이어는 로짓을 정규화하여 어휘 내 각 단어에 대한 확률 점수를 생성합니다. 가장 높은 점수를 가진 단어가 예측된 토큰이며, 최종 선택에 대한 다양한 방법을 사용할 수 있습니다.

 

인코더와 디코더 --> (토크나이징 --> 임베딩 --> 위치 인코딩이 단어 순서 보존 --> 토큰와 위치 인코딩 결합 --> 레이어가 토큰 간의 관계 분석 --> 다중 헤드 셀프 어텐션 --> 각 헤드가 독립적으로 활동) --> 어텐션 적용 후 피드포워드 네트워크 --> 확률 점수 변환 --> 소프트맥스 레이어 정규화 --> 각 단어에 대한 확률 점수 생성 --> 가장 높은 점수가 예측 토큰.

관련글 더보기