빅데이터를 지탱하는 기술

서론

데이터가 있어도 그 가치를 창조하지 못한다면 의미가 없고, 지식이 있어도 시간을 많이 소비한다면 할 수 있는 것은 한정된다.

데이터 엔지니어는 시스템의 구축 및 운용, 자동화 등을 담당하고, 데이터 분석가는 데이터에서 가치 있는 정보를 추출한다.

빅데이터 기술이 기존의 데이터 웨어하우스와 다른 점은 다수의 분산 시스템을 조합하여 확장성이 뛰어난 데이터 처리 구조를 만듬.

Untitled

Hadoop : 다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템

HDFS : Hadoop Distributed File System, 분산 파일 시스템
YARN : Yet Another Resource Negotiator, 리소스 관리자
- 애플리케이션이 사용하는 CPU 코어와 메모리를 container라 불리는 단위로 관리
MapReduce : distributed data processing, 분산 데이터 처리

Untitled

Hive : Hadoop에서 SQL 같은 쿼리 언어를 실행 가능하게 해주는 소프트웨어 (쿼리 엔진)

Presto : Hive와 같은 배치형 쿼리 엔진은 대량 출력을 수반하는 대규모 데이터 처리에 적합하지만, 작은 쿼리를 여러번 실행하는 대화형 데이터 처리에는 적합하지 않음. Presto는 대화형 쿼리 엔진

테이블의 조인은 많은 조인 키를 메모리상에 계속 유지하게 한다. Presto는 분산 결합(distribute join)을 실시하여, 같은 키를 갖는 데이터는 동일한 노드에 모인다.

Data Lake : binary data나 가공되지 않은 데이터를 그대로 DW에 넣을 수 없기 때문에, 여러 곳에서 흘러들어 오는 데이터를 축적하는 ‘호수’

Spark : MapReduce의 대채제인 분산 데이터 처리 시스템