→ 대한성서공회 는 대한민국을 중심으로 성경을 번역하고, 전세계에 번역본을 공급하는 재단이다. 해당 재단에서 보유한 성경 텍스트 데이터를 확보하는 데 목표를 두었다. 먼저 프로토타입을 만들기 위해 저작권이 만료된 본문을 확보했다. 이를 위해 대한성서공회 저작권 담당자에게 문의를 하였고, 답변으로 성명표시권, 동일성 유지권을 지키는 조건으로 크롤링하여 사용하라는 확답을 받았다.

[DB 제공 문의] 성경전서 개역한글판 본문 데이터 (DB, 파일) 제공 가능 여부 문의드립니다..eml

[DB 제공 문의] 성경전서 개역한글판 본문 데이터 (DB, 파일) 제공 가능 여부 문의드립니다. (1).eml

성경 본문의 DB화를 위해 크롤링을 수행했다. 이때, URL 을 보니까 책,장,절 에 따라서 URL 이 구분되는 것을 명확히 확인해볼 수 있었고, 그 URL 과 HTML DOM 요소를 통해 크롤링 방향성을 손쉽게 잡을 수 있었다.
https://www.bskorea.or.kr/bible/korbibReadpage.php?version=HAN&book=gen&chap=1&sec=1&cVersion=&fontSize=15px&fontWeight=normal
URL 을 보면 책 : book=gen / 장 chap=1 / 절 sec=1 로 명확하게 구분되어 있는 것을 확인할 수 있다.
HTML DOM 요소를 보면 아래 사진에서 볼 수 있는 것처럼 book, chap, span class=”number” 로 책장절이 명확한 요소로 분리되어 있는 것을 확인해 볼 수 있다. 이 요소들을 추적하여 크롤링하게끔 했다.
