분석 데이터 결정과정(도서 데이터📕💾)

배경: 원래 계획은 뉴스 데이터들을 수집해서 뉴스 검색 엔진을 구현하려고 하였지만 각 포털 사이트(naver, daum, nate..)마다 뉴스 데이터들이 형성되는 form이 다르기 때문에 데이터를 종합적으로 수집하는데 어려움. 또, 데이터들을 제공하는 Open Api가 존재하지 않아 데이터를 수집하려면 크롤링을 필연적으로 사용해야 하는데 1000만건의 데이터를 수집하려면 과도한 시간과 자원이 필요함.

수집데이터 변경: 이러한 이유로 프로젝트를 진행할때 뉴스 데이터를 사용하면 많은 어려움이 있을것이라 조원들끼리 판단, 수집할 다른 데이터셋을 다시 찾아보기 시작했음.

최종결정: 도서관 정보나루 (data4library.kr) 에서는 전국의 도서관이 각각 소장하고 있는 도서들의 정보를 통일된 형식으로 저장된 데이터들을 open api로 제공하고 있음. 최대 1억 여건의 Real Data를 수집할 수 있기 때문에 검색엔진의 효율을 확인하기 위한 Dummy Data의 생성이 필요없어, 불필요한 자원낭비가 발생하지 않음. 최종적으로 수천만건 이상의 도서데이터들을 수집하며, 검색엔진의 효율을 증가시키는 방향으로 프로젝트를 진행하려고 함.