상세 컨텐츠

본문 제목

Apache Spark on EMR

AWS Certified Machine Learning Specialty

by Taeyoon.Kim.DS 2023. 10. 31. 23:00

본문

Hadoop consists of modules like the HDFS file system, YARN, and MapReduce, all built upon Hadoop-core. HDFS (Hadoop Distributed File System) stores data across cluster instances for scalability and fault tolerance. YARN (Yet Another Resource Negotiator) introduced in Hadoop 2.0, manages cluster resources.

 

MapReduce is a framework for parallel data processing. It consists of mapper and reducer functions. Mapper transforms data while Reducer aggregates and distills it. Nowadays, Apache Spark has become more popular than MapReduce. Spark is a distributed system using in-memory caching and a directed acyclic graph for speed. Spark supports multiple languages and offers components like Spark SQL (fast query engine), Spark Streaming (real-time analytics), MLLib (machine learning library), and GraphX (graph processing). MLLib in Spark provides distributed machine learning algorithms, enabling scalable parallel processing. Lastly, Zeppelin is a notebook for Spark, facilitating interactive Spark code execution.

 


하둡은 HDFS 파일 시스템, YARN 및 MapReduce와 같은 모듈로 구성되며 모두 Hadoop-core 위에 구축됩니다. HDFS (하둡 분산 파일 시스템)는 확장성 및 장애 허용을 위해 클러스터 인스턴스 전반에 걸쳐 데이터를 저장합니다. YARN (Yet Another Resource Negotiator)은 하둡 2.0에서 도입되어 클러스터 리소스를 관리합니다.

 

MapReduce는 병렬 데이터 처리를 위한 프레임워크입니다. 매퍼 및 리듀서 함수로 구성됩니다. 매퍼는 데이터를 변환하며 리듀서는 데이터를 집계하고 추출합니다. 요즘에는 Apache Spark가 MapReduce보다 더 인기가 있습니다. 스파크는 인메모리 캐싱과 방향성 비순환 그래프를 사용하는 분산 시스템입니다. Spark는 여러 언어를 지원하며 Spark SQL (빠른 쿼리 엔진), Spark Streaming (실시간 분석), MLLib (머신 러닝 라이브러리) 및 GraphX (그래프 처리)와 같은 구성 요소를 제공합니다. 스파크의 MLLib은 분산 머신 러닝 알고리즘을 제공하여 확장 가능한 병렬 처리를 가능하게 합니다. 마지막으로, Zeppelin은 Spark의 노트북으로, 대화식 Spark 코드 실행을 쉽게합니다.

관련글 더보기