Hadoop(하둡)

728x90

SMALL

하둡이란?

- 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈 소스 프레임워크이다. (NoSQL 이 아니다)

하둡은 2005년 구글이 논문으로 발표한 GFS(Google File System)와 MapReduce를 구현한 결과물 이다.

처음에는 오픈소스 검색 엔진인 Nutch에 적용하기 위해 시작됐다가 이후 독립적인 프로젝트로 만들어 졌고, 2008년에는 아파치 최상위 프로젝트로 승격

되었다. 하둡은 분산 파일 시스템인 HDFS(Hadoop Distributed File System)에 데이터를 저장하고, 분산 처리 시스템인 맵리듀스를 이용해 데이터를 처리

한다.

하둡은 Oracle, MS-SQL, Sybase, MySQL과 같은 RDBMS를 대체하지 않는다. 오히려 RDBMS와 상호 보완적인 특성을 가지고 있다.

데이터 무결성이 중요한 데이터는 트랜잭션별로 무결성을 보장하는 기존 RDBMS에서 처리하고, 하둡은 배치성으로 데이터를 저장하고 처리해야 한다.

그렇다고 하둡으로 실시간 처리가 불가능한 것은 아니다. 아래 하둡에코시스템에서 살펴볼 Scribe, Flume 같은 솔루션으로 실시간 데이터를 HDFS에

저장하고, Hbase를 이용해 HDFS에 저장된 데이터를 실시간으로 접근하면 된다.

왜 하둡인가?

정형 데이터의 경우 기존 RDBMS에 저장할 수 있지만 웹 로그 같은 비정형 데이터를 RDBMS에 저장하기에는 데이터 크기가 너무 크다.

상용 RDBMS가 설치되는 장비는 대부분 고가의 장비를 사용하게 되는데, 데이터를 감당하기 위해 언제까지 스토리지를 늘릴 수도 없는 노릇이다.

하둡은 오픈소스 프로젝트이기 때문에 소프트우ㅠㅔ어 라이센스 비용에 대한 부담이 없다.

값비싼 유닉스 장비가 아닌 x86 CPU에 리눅스 서버면 얼마든지 설치/운영 가능 하다. 데이터 저장 용량이 부족할 경우 필요한 만큼 리눅스 서버만

추가 하면 된다. 하둡은 데이터의 복제본을 저장하기 때문에 데이터의 유실이나 장애가 발생했을 때도 데이터의 복구가 가능하다.

하둡은 저렴한 구축 비용과 비용 대비 빠른 데이터 처리, 그리고 장애를 대비한 특성은 많은 기업들의 구미를 당기게 했다.

아마존, 이베이, 페이스북, 마이스페이스 등 글로벌 서비스 업체에서 주로 이용하고 있으며 국내에서는 NHN, DAUM, KT, SKT같은 업체에서 사용 중이다.

야후에서는 약 5만대 이상, 페이스북에서는 1만대 이상의 하둡 클러스터를 이용하고 있다.

리눅스가 RedHat, CentOS, Ubuntu 등 다양한 버전이 존재하는 것 처럼 하둡도 다양한 배포판이 출시 되고 있다.

배포판은 무료 버전과 사용 버전으로 나뉘며 배포판을 출시하는 회사에서는 배포판을 이용해 기술지원, 컨설팅, 교육 등 다양한 서비스를 제공한다.

주요 배포 업체 : Cloudera(클라우데라), Hortonwokrs(호튼웍스), MapR Technologies(MapR테크놀로지스), EMC, Amazon(아마존), Hstreaming

728x90

LIST

HDFS(Hadoop Distributed File System) 아키텍처 (0)	2014.03.05
HDFS(Hadoop Distributed File System) 기초 (0)	2014.03.04
Hadoop Test (STS + Maven) (0)	2014.03.04
Haddop 설치 (0)	2014.03.04
Hadoop Echosystem (0)	2014.03.04

쓰쓸늘지