프로그램이 웹 사이트를 정기적으로 돌며 정보를 추출하는 기술. 크롤링을 하는 프로그램을 "크롤러(Crawler)" 또는 "스파이더(Spider)"라고 함.
웹 사이트에 있는 특정 정보를 추출하는 기술. 스크레이핑을 이용하면 웹 사이트에 있는 정보를 쉽게 수집할 수 있음.
최근에는 로그인해야 유용한 정보에 접근할 수 있는 사이트가 많음. 이 경우 단순히 URL을 알고 있는 것만으로는 유용한 정보에 접근하는 것이 불가능. 따라서 웹 페이지에 접근하는 기술도 숙지하고 있어야 원활한 데이터 수집이 가능하다.
인터넷에는 수많은 데이터들이 존재. 이러한 빅데이터 분야가 최근에 인기를 끌고 있는 이유는 방대한 데이터량 때문이기도 하지만 데이터를 쉽게 수집할 수 있게 된 환경의 영향도 존재함. 크롤링은 데이터 수집의 편리한 방법 중 하나로 데이터 수집 과정에서 보편적으로 사용됨.