상세 컨텐츠

본문 제목

AWS Athena & Quicksight

AWS Certified Machine Learning Specialty

by Taeyoon.Kim.DS 2023. 10. 30. 18:07

본문

 

AWS Athena는 visualisation이나 ETL 툴이 아니고, serverless interactive 쿼리를 S3 데이터내에서 가능하게 하는 서비스이다. Amazon S3 - Glue ETL - Athena - Quicksight로 가는 방식이 있다. $5 per TB scanned 사용한 만큼 지불하는 방식이고, columnar format를 사용하면 비용을 절감할 수 있다. 


Columnar format이란?

데이터베이스 저장 방식에는 전통적으로 row-oriented(행 지향) 형식을 썼다. 하지만 데이터 분석이나 빅데이터 처리 같은 걸 할 때 columnar format을 사용하는 게 더 좋았다.

columnar format의 특징은 대충 이런 것이다:

데이터 압축: 같은 데이터 형식의 컬럼 데이터가 모여 있기 때문에 압축이 잘 된다.
IO 최적화: 필요한 컬럼만 읽기 때문에 I/O 작업이 빨라진다.
분석 최적화: 집계나 스캔 연산 같은 분석 작업이 빨라진다.

 

Amazon QuickSight는 Data analytics tool이라고 이해하면 된다. 개발자들을 위한 서비스가 아니라 일반인들이 빠르게 데이터를 시각화한다거나, 대시보드를 만든다거나, SaaS 어플리케이션과 결합하여 (예를 들어 Saleforce)사용하게 된 것이다. ML Insight로는 Anomaly Detection, Forecasting, Auto Narrative (스토리 텔링) 등이 있다. QuickSightQ에서는 NLP기능을 사용한 Chatbot을 제공하는데, what are top-selling items in Florida?와 같은 질문을 하게 되면 답변해주는 식이다. 

QuickSight는 일반 유저는 진입조차 못하고 Sign up 메시지가 떠서 들어가보질 못했다. $9달러 한사람당 한달 이렇게 낸다고한다. RedShift, Aurora/RDS, Athena, EC2 등 다양한 데이터 소스에서 사용이 가능하다.

'AWS Certified Machine Learning Specialty' 카테고리의 다른 글

Apache Spark on EMR  (0) 2023.10.31
AWS EMR (Elastic Map Reduce)  (0) 2023.10.31
AWS Recognition & Forecast  (0) 2023.10.30
Various AWS services for ML  (0) 2023.10.30
Linear Learner & XGBoost  (0) 2023.10.30

관련글 더보기