https://s3-us-west-2.amazonaws.com/secure.notion-static.com/247acb52-aff2-48cb-b275-b9336c5b910f/웹크롤링_커리큘럼_이미지_수정.png

이번 주차에서는 11번가 사이트 크롤링을 통해 Scrapy 프로젝트 파일을 하나하나 파헤쳐 보겠습니다.

1주차에서도 언급했지만 클래스에 대한 내용 복습은 필수입니다.

클래스, 객체, 메서드 등 용어를 중심으로 복습해 주세요 🙂

<aside> 📢 공지사항


3주차까지는 py 파일 수정을 jupyter notebook으로 합니다.

원래는 텍스트 에디터(코드 편집 프로그램)를 사용해야 되는데, 일단은 Scrapy 학습에 초점을 두기로 했어요. (주피터 노트북은 텍스트 에디터가 아닙니다!!!)

대표적인 텍스트 에디터로는 Visual Studio Code(VS Code), Sublime Text, Atom 등이 있습니다. 4주차에 VS Code의 기초적인 사용법을 익혀볼 예정이니 기대해 주세요 😊

목차

시작하기 앞서 jupyter notebook으로 settings.py를 열어 한 가지 설정을 추가하겠습니다.

DOWNLOAD_DELAY = 1    # 페이지 다운로드 간격을 1초로 지정

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/8fa63b3b-4895-4ec4-ab69-5e6146eedc6c/Untitled.png

이 설정을 해주지 않으면 페이지 다운로드 간격이 0초라 웹사이트에 부하를 걸게 될 수 있습니다. 사이트 관리자의 워라밸을 위해 해당 설정을 꼭 저장해 줍시다 👨‍💻

1. Spider(크롤러) 만들기