서론

데이터가 있어도 그 가치를 창조하지 못한다면 의미가 없고, 지식이 있어도 시간을 많이 소비한다면 할 수 있는 것은 한정된다.

데이터 엔지니어는 시스템의 구축 및 운용, 자동화 등을 담당하고, 데이터 분석가는 데이터에서 가치 있는 정보를 추출한다.

빅데이터 기술이 기존의 데이터 웨어하우스와 다른 점은 다수의 분산 시스템을 조합하여 확장성이 뛰어난 데이터 처리 구조를 만듬.

Untitled

분산처리

Hadoop : 다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템

Untitled

Untitled

Hive : Hadoop에서 SQL 같은 쿼리 언어를 실행 가능하게 해주는 소프트웨어 (쿼리 엔진)

Presto : Hive와 같은 배치형 쿼리 엔진은 대량 출력을 수반하는 대규모 데이터 처리에 적합하지만, 작은 쿼리를 여러번 실행하는 대화형 데이터 처리에는 적합하지 않음. Presto는 대화형 쿼리 엔진

Data Lake : binary data나 가공되지 않은 데이터를 그대로 DW에 넣을 수 없기 때문에, 여러 곳에서 흘러들어 오는 데이터를 축적하는 ‘호수’

Spark : MapReduce의 대채제인 분산 데이터 처리 시스템