Open API로 데이터를 받는것이 너무 느림. 실제 데이터를 공공데이터쪽에서 받아오는데 500개당 20초 이상이 소요되는것을 확인.
1700만개 이상의 데이터를 확보하는데 너무 많은 시간을 소요함
정보나루에서는 도서관 데이터를 excel이나 csv파일로도 제공함 이것을 받아서 1700만개의 도서 데이터를 받아서 해결하는것으로 함.
csv 파일의 문제: 기본적으로 csv는 열의 나눔을 ,로 표시하는데 책 데이터에 ,가 있다면 분리하는것에서 문제가 생김. 또한 기본 인코딩 변경중 간자체나 일부 한글이 깨지는 현상이 발생
excel 파일의 문제 : csv 파일보다 데이터를 안전하게 구축할수있으나 csv파일보다 더 많은 시간이 소요됨 또한 excel 파일이 너무 큰경우 heap 메모리 초과 오류를 발생시킴.
결론:
excel 파일을 사용하되 heap메모리 초과 오류를 방지하기위해 파일을 분리. 더 많은 시간이 소요되나 실제 Open API를 사용하는 시간보다는 확실하게 줄어듦에 따라 효과가 있다.