상세 컨텐츠

본문 제목

Pre-training large language models

Generative AI with Large Language Models

by Taeyoon.Kim.DS 2023. 8. 21. 20:54

본문

https://www.coursera.org/learn/generative-ai-with-llms/lecture/2T3Au/pre-training-large-language-models

 

Pre-training large language models - Week 1 | Coursera

Video created by deeplearning.ai, Amazon Web Services for the course "Generative AI with Large Language Models". Generative AI use cases, project lifecycle, and model pre-training

www.coursera.org

In the previous video, we discussed the generative AI project life cycle and the importance of selecting the right model. You can either use an existing model or train your own. Large language models (LLMs) are crucial and undergo a pre-training phase, where they learn from vast amounts of textual data, but typically only 1-3% of tokens are used. There are three main types of transformer model variations: encoder-only, decoder-only, and sequence-to-sequence.

Encoder-only models, also known as Autoencoding models, are pre-trained using masked language modeling and are ideal for tasks benefiting from bi-directional context, like sentiment analysis. Decoder-only or autoregressive models predict the next token based on the previous ones, suitable for text generation.
Sequence-to-sequence models utilize both encoder and decoder components and are great for translation, summarization, and question-answering.

 

Larger models tend to perform better but come with higher computational demands. The trend is towards ever-larger models, although training them is expensive and challenging. Researchers are exploring the limits of model growth.

 

이전 비디오에서는 생성형 AI 프로젝트 수명 주기를 논의하고 적절한 모델 선택의 중요성을 다뤘습니다. 기존 모델을 사용하거나 직접 모델을 교육할 수 있습니다. 대형 언어 모델 (LLM)은 중요하며 사전 교육 단계를 거치는데 거대한 양의 텍스트 데이터에서 학습하지만 일반적으로 토큰의 1-3% 정도만 사용됩니다. 트랜스포머 모델의 주요 변형은 세 가지가 있습니다: 인코더 (오토인코더) 전용, 디코더 전용 및 시퀀스-투-시퀀스.

인코더 전용 모델 (Autoencoding) 모델은 마스크된 언어 모델링을 사용하여 사전 교육되며 양방향 문맥을 활용하는 감정 분석과 같은 작업에 이상적입니다. 디코더 전용 또는 자기 회귀 모델은 이전 토큰을 기반으로 다음 토큰을 예측하며 텍스트 생성과 같은 작업에 적합합니다. 시퀀스-투-시퀀스 모델은 인코더 및 디코더 구성 요소를 모두 활용하며 번역, 요약 및 질문 응답과 같은 작업에 적합합니다.

 

더 큰 모델이 더 좋은 성능을 내지만 더 높은 계산 요구 사항이 따릅니다. 모델 크기는 점점 커지는 추세이지만 이러한 모델을 교육하는 것은 비용이 많이 들고 어려운 과제입니다. 연구자들은 모델 성장의 한계를 탐색하고 있습니다.

관련글 더보기