본문 바로가기
IT

하둡이란?

by DdookDdaak 2022. 11. 20.
반응형

하둡이란, 기존 DBMS로는 대용량 데이터를 처리할 수 없게되자 생겨나게 되었고, 하둡은 여러개의 컴퓨터로 분산하여 대용량데이터처리하는 기술입니다. 

 

하둡의 주요 장점은 대용량 데이터를 분산하여 처리한다는 점입니다. 기존 데이터들은 처리를 위해서는 중앙으로 모두 모아져 중앙에서 처리가 되었다면, 하둡환경에서는 각 데이터들이 여러개의 컴퓨터에서 처리가 된 후 중앙으로 모이게 되어서, 데이터 처리 속도가 매우 빨라지게 되는 장점이 있습니다. 

 

 

하둡의 주요 구성요소는

  • HDFS(Hadoop Distributed File System, 하둡 분산형 파일시스템)

               : 수천대의 분산된 장비에 대용량 파일을 저장할 수 있는 기능을 제공하는 분산파일 시스템

  • 맵리듀스(MapReduce)

               : 저장된 파일을 분산된 서버의 CPU와 메모리 자원을 이용하여 빠르게 분석, 처리하는 플랫폼

 

 

하둡은 위의 주요 코어 프로젝트들 뿐만 아니라, 다양한 서브 프로젝트들이 함께 구성되어 있고, 이 서브 프로젝트들이 구성되어 있는 것을 

하둡 에코시스템이라고 한다. 

 

주요 서브 프로젝트

  • Zoo Keeper : 하둡의 분산환경에서 노드들간의 정보 공유, 이벤트 등 보조 기능 제공(하둡 에코시스템 관리자같은 역할) 
  • Hbase : HDFS의 칼럼 기반 데이터베이스

 

반응형

'IT' 카테고리의 다른 글

AWS Practitioner 자격증 준비  (0) 2023.02.12
도커란?  (0) 2023.01.08
커버로스란?  (0) 2022.12.04
DB기초  (0) 2022.12.02
마이데이터 사업이란?  (0) 2021.12.25

댓글