대표 이미지

요약
- 독서 성향 기반 미술 작품 추천 대시보드 구축 프로젝트를 진행한다.
- 도서 데이터, 미술품 데이터 선정
- 도서관 정보나루 Open API에서 월별 인기도서 상위 20개, 개별 도서 상세정보를 가져오며 ISBN13을 기준으로 사용자 평점 데이터 수집, 중복 도서 제거 및 고유 목록 구성, 도서명 표준화를 위한 부제 제거, HTML 특수문자 및 불필요한 기호를 제거했다. 이후, 2015년부터 2024년까지 20대 기준 10년간의 인기도서 중 중복을 제거한 52권의 한국 문학 소설로 구성된 최종 도서 데이터셋을 완성했다.
- 미술품 데이터의 경우 국립현대미술관 서울관에서 현재 진행 중인 최신 전시 데이터의 실시간성 및 완전성 확보를 위해 공식 누리집에 게시된 공개 데이터를 직접 수집하였다.

- 작품 분석용 키워드 선정
- 문학과 미술품 간의 감정적, 주제적, 미학적 특성을 정량적으로 비교 분석하기 위해, 본 프로젝트에서는 총 40개의 분석 키워드를 선정하였다.
- Ekman(1992)의 기본감정 이론과 Plutchik의 감정 원형 모델 등 다양한 참고문헌을 고려하여 선정하였다.

- GPT 기반 다차원 평가 모델을 선정하였다.
- 앞서 설정한 40개 키워드로 세분화하여 0-100점 척도로 평가한다. 데이터 입력 단계에서는 제목, 작가, 유형, 연도, 장르의 기본 메타데이터와 작품 설명을 입력받으며, 40개 키워드 체계 및 작품 설명을 포함한 분석 프레임워크를 함께 제공한다. 분석 단계에서는 OpenAI GPT-4o-mini 모델을 활용하여 작품 유형별 분석을 수행한다. 온도 설정 0.1을 통해 일관된 평가 결과를 보장하며, 최대 토큰 5,000개 설정으로 각 키워드에 대한 상세한 점수 산출과 평가 근거 설명을 생성한다.

- 작품 특성을 정량평가 하기 위해 0-100점을 기준으로 5단계의 척도를 구성하였다. 0-20점(관련성 거의 없음), 21-40점(미약한 관련성), 41-60점(보통 수준), 61-80점(강한 관련성), 81-100점(핵심 특성)으로 세분화하여 평가의 정밀도를 높였다.
- 코사인 유사도 기반 매칭
- GPT 모델로 생성된 도서의 40차원 키워드 벡터를 기반으로 교보문고 평점을 가중치로 활용한 가중평균 방식을 통해 사용자 취향 벡터를 생성한다. 사용자 취향 벡터와 미술 작품 벡터 간의 코사인 유사도를 계산하여 벡터 크기와 무관한 패턴 유사성을 측정한다. 전체 유사도와 함께 5개 키워드 카테고리별 세분화된 유사도를 계산하여 추천 근거의 설명 가능성을 확보하였다.
- 분석 결과 사용자 취향의 상위 3개 키워드는 다음과 같다.