안녕하세요 하용호입니다. 오늘은 저번 강의시간에도 살짝 이야기했던 데이터팀의 발전 6단계에 대해서 이야기해보려 합니다. 다만 아래에 나온 견해는 저의 경험에 기반한 것이기에 사람마다 의견이 조금 다를 수 있습니다.

데이터팀은 Passive LV1,2,3를 거쳐서 Active LV 1,2,3로 올라가게 됩니다.

Passive LV 1 : 데이터 확충 + 오래된 의문의 해결 + 리포트 수렁

이 단계는 대체로 대부분의 회사의 데이터팀이 막 발족한 단계입니다. 사내에 쌓여있는 로그가 없거나, 있다하더라도 쓸 수 있는 상태가 아니기 때문에, 데이터를 쓸 수 있게 만드는 것에 많은 시간을 기울이게 됩니다. 대체로 백엔드 개발자와 데이터 엔지니어의 일이 많습니다. 꽤 여러달의 노력을 거쳐, 분석할 만큼의 데이터 정리 작업을 하게 되고 드디어 분석을 할 수 있게 됩니다.

첫번째 풀게 되는 주제는 보통 우리 고객은 어디에서 왔고, 어떤 활동을 보이는가에 대한 broad한 주제와, 기존의 기획과 영업이 오랫동안 가지고 있었던 의문들을 먼저 풀게 됩니다. 특별한 전달 매개체 없이, 임의의(ad hoc)한 질문들을 풀게되고, 리포트를 만들어 현업에게 전달합니다.

다만 이 과정이 지속되면서, 너무 루틴하게 뽑아주게 되는 일이 많아지는데? 라는 생각이 들 때 쯤 LV2로 넘어가게 됩니다.

Passive LV2 : 대시보드 수렁의 시작

반복된 ad hoc 질의에 지쳐가면서, 데이터 엔지니어와 데이터 분석가는 대시보드를 도입하게 됩니다. 사내의 여러 지표들을 한눈에 볼 수 있는 웹페이지와 slack bot을 만들게 됩니다. 이로써 많은 반복 요청들이 줄어들게 됩니다. 하지만 세상일이 쉽지 않은 것이, 이제는 많은 현업이 더 많은 지표를 대시보드에 표시해달라는 요청을 합니다. 새 지표마다, 데이터 엔지니어 + 분석가의 작업이 필요하고, 대시보드에 해당 정보를 추가하는 일이 몰려들게 됩니다.

안타까운 것은 이렇게 추가된 지표들이 많아지지만, 대부분의 지표들은 현업이 해당 프로젝트를 진행하는, 또는 런칭하는 2-4주 정도동안 관심을 받게 되고, 점점 잊혀집니다. 시간이 지나서 살펴보면 많은 지표들이 데일리 업데이트 루틴의 고장으로 업데이트 되지 않은 채 버려져있고, 현업도 참고하고 있지 않아 이 오류를 뒤늦게 발견하는 일이 일어나곤 합니다. 이런 오류를 발견하면, 해당 지표를 수리하고 앞에서 부터 업데이트 하는 일이 추가 되게 됩니다.

대시보드로 모든 것을 해결할 수 없으므로, 여전히 ad hoc한 현업 질의는 들어옵니다. 다만 예전보다 좀 더 난이도 있는 질문들이 들어옵니다. 하나를 해결하는데 더 많은 시간이 필요합니다. 대시보드를 쓰면서 벌어들인 일할 시간이 여기에 많이 쓰이게 됩니다.

그럼에도 고무적인 것은 꽤 많은 현업이, 자기의 일을 할 때, 데이터팀에서 보여주는 지표에 기대는 성향이 많아지고, 회사가 꽤 data-driven이 됩니다. 슬슬 내가 직접 원천 데이터를 볼 수 없는가 하는 요청들이 나타납니다.

Passive LV3 : 데이터 보는 일의 현업 보급 + 여력확보

데이터를 보는 현업의 니즈가 올라가면서, 이를 데이터팀이 다 소구할 수 없습니다. 이 때쯤 내부 데이터 스택도 더 튼튼해집니다. 사내의 많은 데이터가 hive, bigquery, redshift등으로 sql로 접근할 수 있게 재편됩니다. sql로의 재편은 데이터팀이 일하기 위해서 필요해서 필수적으로 하게되는 작업이지만, 이 데이터로 직접 접근하고 싶어하는 현업이 생깁니다.

이 때 2개의 layer로 나누어 (초보자, 전문가) 간단한 데이터를 보는 일은 현업이 직접 하게 됩니다. 이 작업을 돕는 소프트웨어를 도입하게 되는데, tableau, superset, redash, hue등을 쓰게 됩니다. 앞의 것일 수록 사용자 친화적이고 뒤의 것일수록 좀 더 원초적인 데이터에 접근하게 됩니다. 때문에 회사에 따라 tableau + redash(or hue) 등으로 두 니즈를 모두 다 해결하는 곳도 있습니다.

이 작업의 핵심은 기획자나 영업등 현업이 자기가 궁금한 것을 직접해결한다는 것도 있겠지만, 다른 의미에서 많은 데이터 작업이 현업 자체에서 해결되어 나감으로서, 데이터팀은 대시보드 작업 지옥에서 벗어나고, adhoc 한 요청도 줄이면서 작업 여력을 확보한다는 것에도 의미가 큽니다.

이 확보한 여력으로 Active 로 넘어가기 위한 엔지니어링을 다시 시작합니다.