상세 컨텐츠

본문 제목

Generating text with transformers

Generative AI with Large Language Models

by Taeyoon.Kim.DS 2023. 8. 21. 18:52

본문

https://www.coursera.org/learn/generative-ai-with-llms/lecture/R0xbD/generating-text-with-transformers

 

Generating text with transformers - Week 1 | Coursera

Video created by deeplearning.ai, Amazon Web Services for the course "Generative AI with Large Language Models". Generative AI use cases, project lifecycle, and model pre-training

www.coursera.org

This section provides an overview of how the prediction process works in a transformer model through a translation task, which was one of the original purposes of the transformer architecture. Using a French-to-English translation as an example, the process begins with tokenizing the input words, sending them through the encoder, embedding layer, and multi-headed attention layers. The encoder produces a deep representation of the input's structure and meaning, which is passed to the decoder. The decoder, triggered by a start-of-sequence token, generates the next token based on its understanding from the encoder. This loop continues until an end-of-sequence token is predicted, resulting in the final token sequence, which can be detokenized into words.

Transformer models employ various methods from the softmax layer to predict the next token, influencing the creativity of generated text.

The complete transformer architecture consists of encoder and decoder components. Encoder-only models work for sequence-to-sequence tasks with input and output sequences of the same length. Encoder-decoder models handle tasks like translation with differing input and output lengths, and decoder-only models are versatile and suitable for various tasks.

 

이 섹션에서는 트렌스포머 모델에서 예측 프로세스가 어떻게 작동하는지에 대한 개요를 제공합니다. 번역 작업을 예로 들며 이는 트렌스포머 아키텍처의 원래 목적 중 하나였습니다. 프랑스어에서 영어로의 번역을 사용하는 예로서, 프로세스는 입력 단어를 토큰화하여 시작되며, 이러한 토큰은 인코더, 임베딩 레이어 및 다중 헤드 어텐션 레이어를 통과합니다. 인코더는 입력의 구조와 의미에 대한 깊은 표현을 생성하고 이를 디코더로 전달합니다. 디코더는 시작 토큰을 트리거로 하여 인코더로부터의 이해를 기반으로 다음 토큰을 생성하며, 이 루프는 종료 시퀀스 토큰이 예측될 때까지 반복되어 최종 토큰 시퀀스를 생성하게 됩니다. 이 최종 토큰 시퀀스는 단어로 다시 구성될 수 있습니다.

트렌스포머 모델은 다음 토큰을 예측하기 위해 소프트맥스 레이어 등 다양한 방법을 활용하며, 생성된 텍스트의 창의성에 영향을 미칩니다. 완전한 트렌스포머 아키텍처는 인코더 및 디코더 구성 요소로 구성됩니다. 인코더만으로 구성된 모델은 입력 및 출력 시퀀스의 길이가 동일한 시퀀스-대-시퀀스 작업에 적합하며, 인코더-디코더 모델은 입력과 출력 길이가 다른 번역과 같은 작업을 처리하며 디코더만으로 구성된 모델은 다양한 작업에 적합합니다.

 

입력 단어를 토큰화 --> 인코더, 임베딩 레이어 --> 다중 헤드 어텐션 레이어 --> 디코더 --> 다음 토큰 생성 하는 이 루프가 지속적으로 반복되어 최종 토큰 시퀀스를 생성함.

관련글 더보기