이전 블로그를 작성할 때 웹 크롤링의 정식 명칭이 웹 스크래핑이라고 소개한 적이 있습니다. 실습 위주의 구글링으로 익힌 개념이라 같은 개념으로 혼동했는데, 같은 주제로 웹 크롤링과 웹 스크래핑을 다시 구분 지어 소개해 보려 합니다.

웹 크롤링(Web Crawling)이란?

웹상의 데이터를 자동적으로 탐색하고 수집하는 행위를 뜻합니다. 웹 크롤링을 통해 데이터를 수집하고 분석하여 인사이트를 도출할 수 있습니다. 예를 들어 트렌드를 파악하기 위해 인스타그램, 페이스북 등 SNS 혹은 커뮤니티에 존재하는 데이터들을 수집하고 싶을 경우 SNS에 접속해 일일이 보는 것보다 웹 크롤링을 통해 가져온 데이터로 한눈에 보는 것이 빠를 겁니다.

웹 크롤링은 스파이더링(Spidering)이라고도 불리는데, 이 웹 크롤링은 ‘데이터 탐색’만을 하기 위한 행위가 아닙니다. 웹 크롤러는 원하는 데이터를 탐색 및 수집, 저장을 하기 위한 목적을 가지고 있습니다. 그렇기 때문에 웹 크롤링은 법적인 이슈도 분명 존재합니다.

웹 크롤러

웹 크롤링 하는 주체로, 인터넷에 있는 웹 페이지를 방문해서 자료를 수집하는 일을 하는 프로그램입니다.

그렇다면 웹 스크래핑(Web Scraping)은 무엇일까?

쉽게 말하면 자료를 모으는 행위로, 컴퓨터의 소프트웨어 기술로 웹사이트에서 원하는 정보를 추출하는 것입니다.

글로 보았을 때 명확한 차이가 느껴지지 않겠지만 웹 스크래핑은 ‘추출’이라는 단어에 집중하면 됩니다.

웹 크롤링의 개념에 대해 설명하면서 법적인 이슈가 존재한다고 했는데 그게 왜 문제가 될까요?

웹 크롤링 자체가 불법인 것은 아니라고 합니다. 하지만 웹 크롤러가 데이터를 수집하면서 해당 데이터를 가지고 상업적으로 이용한다면 그것은 문제가 됩니다.

웹 크롤링 법적 이슈 사례를 보면 경쟁사가 데이터를 무단으로 수집하여 자신들의 데이터로 가공했을 뿐만 아니라 수집하는 과정에서 데이터를 가지고 있는 업체의 서버에 부담을 주게 되는 일이 있었고 이를 불법으로 간주한 판례가 있습니다.

무조건 상업적으로 이용하는 것만이 문제가 되는 것은 아닙니다. 상업적인 목적을 가진 것이 아니라도 불법으로 간주되는 경우도 있으니 주의하여 사용해야 합니다.

각 웹 사이트들은 기본적으로 규제 여부를 명시하므로 이를 인지하고 사용하는 게 좋을 것 같습니다.