상세 컨텐츠

본문 제목

Linear Learner & XGBoost

AWS Certified Machine Learning Specialty

by Taeyoon.Kim.DS 2023. 10. 30. 01:57

본문

Linear Learner는 1) Rgression predictions와 2) Classification predictions이 동시에 가능한데 그건 threshold를 얼만큼 정해주냐에 따라서 달라지기 떄문이다. 그래서 바이너리 또는 멀티클래스에도 사용될 수 있다. 데이터 타입은 Record Io-wrapped protobuf가 사용될 수 있고, float 32 data만 가능하다. csv파일일 수도 있고 pipe mode가 훈련 속도를 증가시킬 수도 있다. preprocessiong에서 normalisation그리고 input data를 셔플할 수 있다. Training에서는 SGD, Optimsation (Adam이나 AdaGrad 등)이 사용 될 수 있고 L1,L2 튜닝도 가능하다. Validation에서 대부분의 optimised model은 사용된다.

 

XGBoost - Extreme Gradient Boosting이다. Boosted 그룹 from decision trees. GD를 이용해서 로스값을 최소화한다. Classification Regression둘다 가능하며 RecordIO-Protobuf 그리고 parquet, csv가능하다. 시리얼라이즈와 디시리얼라이즈를 피클화해서 가능하다. 파라미터는 subsample, gamma, eta . 

Evaluation Matric: AUC score, accuracy등이다. 

인메모리 바운드 M5, P2, P3에서 잘 사용될 수 있다. 난 t3.medium따위나 사용하니 xgboost는 사용 못한다.

관련글 더보기