본문 바로가기
728x90
반응형
SMALL

hadoop2

HDFS(Hadoop Distributed File System) 아키텍처 HDFS은 블록 구조의 파일 시스템이다.블록 사이즈는 기본 64MB 로 설정 되어 있으며 HDFS 에 저장되는 파일은 블록으로 나눠져서 분산 서버에 저장된다.이렇게 분산된 서버에 나눠서 데이터를 저장하기 때문에 로컬 서버의 하드디스크보다 큰 사이즈의 데이터를 저장할 수 있는 것이고,저장할 수 있는 용량을 수십기가, 테라, 페타바이트까지 확대할 수 있다. HDFS의 파일 복제 구조HDFS은 블록을 저장할 때 기본적으로 3개씩 복제본을 저장한다. (설정 가능) 특정 서버의 하드디스크의 오류가 생기더라도 복제된 블록을 이용하여 데이터를 조회 할수 있다. HDFS 에 저장되는 디렉토리, 파일명과 같은 네임스페이스 그리고 해당 파일의 복제본 수와 블록의 위치도 네임노드의 메타데이터에 저장된다. 데이터노드는 주기적.. 2014. 3. 5.
Hadoop(하둡) 하둡이란? - 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈 소스 프레임워크이다. (NoSQL 이 아니다)하둡은 2005년 구글이 논문으로 발표한 GFS(Google File System)와 MapReduce를 구현한 결과물 이다.처음에는 오픈소스 검색 엔진인 Nutch에 적용하기 위해 시작됐다가 이후 독립적인 프로젝트로 만들어 졌고, 2008년에는 아파치 최상위 프로젝트로 승격되었다. 하둡은 분산 파일 시스템인 HDFS(Hadoop Distributed File System)에 데이터를 저장하고, 분산 처리 시스템인 맵리듀스를 이용해 데이터를 처리한다. 하둡은 Oracle, MS-SQL, Sybase, MySQL과 같은 RDBMS를 대체하지 않는다. 오히려 RDBMS와 상호 보완적인 특성을 가.. 2014. 3. 4.
728x90
반응형
LIST