본문 바로가기
IT/하둡

Hadoop Echosystem

by 최고영회 2014. 3. 4.
728x90
반응형
SMALL

하둡에코시스템

하둡에코시스템에는 여러 가지 다른 프로젝트들이 있는데 하둡처럼 동물이름을 따서 지어진 것이 많다.

Pig(돼지), Hive(벌떼), Zookeeper(동물 사육사) 등이 대표적이다.



  - Zookeeper : 분산 환경에서 서버 간의 상호 조정이 필요한 다양한 서비스를 제공하는 시스템

           1. 하나의 서버에만 서비스가 집중되지 않게 서비스를 알맞게 분산해 동시에 처리하게 해준다.

           2. 하나의 서버에서 처리한 결과를 다른 서버와도 동기화해서 데이터의 안정성을 보장해 준다.

           3. 운영 (active) 서버가 문제가 발생할 경우 다른 대기 중인 서버를 운영서버로 바꿔서 서비스가 정지 없이 제공되게 해준다.

           4. 분산환경을 구성하는 서버들의 환경설정을 통합적으로 관리 해 준다.

  - Oozie : 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템으로 자바 서블릿 컨테이너에서 실행되는 자바 웹 어플리케이션 서버이다.

           맵리듀스 작업이나 피그 작업 같은 특화된 액션으로 구성된 워크 플로우를 제어 한다.

  - HBase : HDFS 기반의 Column 기반 데이터베이스로 구글의 BigTable 논문을 기반으로 개발 되었다. 

           실시간 랜덤 조회 및 업데이트가 가능하며, 각 프로세스는 개인의 데이터를 비동기적으로 업데이트 할 수 있다. 단 맵리듀스는 일괄 처리 방식

           으로 수행된다. NHN 의 모바일 메신저 Line 에 HBase 를 적용한 시스템 아키텍처를 발표 했다.

  - Pig : 복잡한 맵 리듀스 프로그래밍을 대체할 Pig Latin 이라는 자체 언어를 제공한다. 맵리듀스 API 를 크게 단순화 했으며 SQL과 유사한 형태로

          설계되었다. SQL 과 유사하긴 하지만 기존 SQL 지식을 활용 하는 것은 어려운 편이다.

  - Hive : 하둡 기반의 DW용 솔루션으로 페이스북에서 개발되었고 오픈소스로 공개되면서 주목받는 기술이다. 

         SQL과 매우 유사한 HiveQL이라는 쿼리를 제공한다. 때문에 자바를 모르는 데이터 분석가들도 쉽게 하둡 데이터를 분석할 수 있게 도와 준다.

         HiveQL은 내부적으로 맵리듀스 잡으로 변환되어 실행 된다.

  - Mahout : 하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈 소스이다. Mahout을 그대로 사용할 수 도 있지만 자신의 비즈니스 환경에 맞게

         최적화해서 사용하는 경우가 많다.

  - HCatalog : 하둡으로 생성한 데이터를 위한 테이블 및 스토리지 관리 서비스 이다. 

  - Avro : RPC와 데이터 직렬화를 지원하는 프레임워크이다. JSON을 이용해 데이터 형식과 프로토콜을 정의하며 작고 빠른 바이너리 포맷으로 

         데이터를 직렬화 한다.

  - Chunkwa : 분산 환경에서 생성되는 데이터를 HDFS에 안정적으로 저장하는 플랫폼이다. 

         분산된 각 서버에서 에이전트를 실행하고 콜렉터가 에이전트로부터 데이터를 받아 HDFS 에 저장한다. 

  - Flume : Chunkwa처럼 분산된 서버에 에이전트가 설치되고, 에이전트로부터 데이터를 전달받는 콜렉터로 구성된다. 차이점은 전체 데이터의 흐름을

         관리하는 마스터 서버가 있어서, 데이터를 어디서 수집하고, 어떤 방식으로 전송하고, 어디에 저장할지를 동적으로 변경할 수 있다는 것이다. 

  - Scribe :  페이스북에서 개발한 데이터 수집 플랫폼이며, Chunkwa와는 다르게 데이터를 중앙 집중 서버로 전송하는 방식이다. 

         HDFS에 저장하려면 JNI(Java Native Interface)를 이용해야 한다.

728x90
반응형
LIST

'IT > 하둡' 카테고리의 다른 글

HDFS(Hadoop Distributed File System) 아키텍처  (0) 2014.03.05
HDFS(Hadoop Distributed File System) 기초  (0) 2014.03.04
Hadoop Test (STS + Maven)  (0) 2014.03.04
Haddop 설치  (0) 2014.03.04
Hadoop(하둡)  (0) 2014.03.04