- 안녕하세요! 브랜든입니다.
- 너무 좋네요 많이 와주셔서 감사합니다.
- 아침부터 무리 하게들 일찍 오셔가지고 지금부터 쭉 들으셨으면 총 4개의 세션을 들으셨을 겁니다.
- 제가 이쯤에서 쪼금 우려되는바가 있는데요 여기 계신분들의 집중력이 바닥 날거라는 예상을 합니다.
- 잡담은 이 정도로 그만두고요
- 저희 팀에서 airflow라는 툴을 쓰는데 정말로 아름다운지 여러분이 판단 해보시면 됩니다.
카카오 페이지의 데이터 분석문제
- 데이터 분석이 점점 어려워지고 어떻게 해결했는지
- 카카오 페이지의 5년간 열람 건 수 2014년에 비해 100배 성장을 하였다. 2015년과 비교해 10배 성장을 하였다.
- 서비스의 성장과 개발조직의 분화
- 저희 팀에서는 카카오 페이지와 다음 웹툰 두 서비스를 운영 중 입니다.
- 마이크로 서비스로 분화되면서 DB도 분화 그럼 데이터 분석은?
- 데이터 분석가 입장에서 DB가 많아 혼란스러운 상황
- 서로 다른 DB가 JOIN이 필요한 경우
- 전문용어로는 크로스 데이터베이스 조인 이라 합니다. 매우 어렵다
- Data Lake, Data WareHouse
- 흩어져 있는 데이터가 한군데 모이는 공간
- 웨어하우스랑 레이크가 다른점은 상용시스템을 이용하지 않고 분산 파일 시스템에 쓴다.
- 분산형 쿼리/분석 엔진 Hive, Spark, Impala, Presto
- 몽땅 HDFS 에 넣어보자라고 생각을 함
- Mysql, 몽고 디비로 이루어진 디비를 레이크에 적재 한다. 그리고 적절하게 변환 과정을 거친다.
- 이 그림만 보면 DataLake에는 로우 데이터랑 변환된 데이터가 있어 분석가 입장에선 Lake만 바라보면 됨
- 그러면은 이 Lake를 어떻게 구축 하였나? 이 레이크를 구축하는 과정을 Airflow로 구축을 하고 있어요