반응형
하둡이란, 기존 DBMS로는 대용량 데이터를 처리할 수 없게되자 생겨나게 되었고, 하둡은 여러개의 컴퓨터로 분산하여 대용량데이터를 처리하는 기술입니다.
하둡의 주요 장점은 대용량 데이터를 분산하여 처리한다는 점입니다. 기존 데이터들은 처리를 위해서는 중앙으로 모두 모아져 중앙에서 처리가 되었다면, 하둡환경에서는 각 데이터들이 여러개의 컴퓨터에서 처리가 된 후 중앙으로 모이게 되어서, 데이터 처리 속도가 매우 빨라지게 되는 장점이 있습니다.
하둡의 주요 구성요소는
- HDFS(Hadoop Distributed File System, 하둡 분산형 파일시스템)
: 수천대의 분산된 장비에 대용량 파일을 저장할 수 있는 기능을 제공하는 분산파일 시스템
- 맵리듀스(MapReduce)
: 저장된 파일을 분산된 서버의 CPU와 메모리 자원을 이용하여 빠르게 분석, 처리하는 플랫폼
하둡은 위의 주요 코어 프로젝트들 뿐만 아니라, 다양한 서브 프로젝트들이 함께 구성되어 있고, 이 서브 프로젝트들이 구성되어 있는 것을
하둡 에코시스템이라고 한다.
주요 서브 프로젝트
- Zoo Keeper : 하둡의 분산환경에서 노드들간의 정보 공유, 이벤트 등 보조 기능 제공(하둡 에코시스템 관리자같은 역할)
- Hbase : HDFS의 칼럼 기반 데이터베이스
반응형
'IT' 카테고리의 다른 글
AWS Practitioner 자격증 준비 (0) | 2023.02.12 |
---|---|
도커란? (0) | 2023.01.08 |
커버로스란? (0) | 2022.12.04 |
DB기초 (0) | 2022.12.02 |
마이데이터 사업이란? (0) | 2021.12.25 |
댓글