작성일: 2025년 6월 24일 버전: 1.2.0 (키워드 점수 시스템 적용)
Rmazon 상품 분석 시스템은 온라인 상품 판매자가 데이터에 기반한 합리적인 의사결정을 내릴 수 있도록 지원하는 웹 기반 분석 솔루션입니다. 본 시스템은 방대한 상품 데이터를 분석하여 시장 내 경쟁 환경 분석, 소비자 요구사항 파악, 최적 가격 전략 수립 등 상품 기획 및 판매 전략의 전 과정에 필요한 핵심 인사이트를 제공하는 것을 목표로 합니다.
주요 기능은 **「유사 상품 탐색 및 AI 리뷰 분석」**과 「판매 지표 예측」 두 가지로 구성되어 있으며, 이를 통해 사용자는 신규 상품 출시 또는 기존 상품 개선 시 발생할 수 있는 불확실성을 최소화하고 성공 가능성을 극대화할 수 있습니다.
본 시스템은 최신 웹 기술 스택을 기반으로 프론트엔드와 백엔드가 명확하게 분리된 구조로 설계되었습니다.
이 기능은 초기 모델의 한계(문맥은 유사하나 핵심 기능이 다른 상품을 구분하지 못하는 문제)를 극복하기 위해, 핵심 기능 매칭과 의미적 유사성, 그리고 가격 근접성을 모두 고려하는 다차원적인 분석 로직으로 발전했습니다.
search_similarity
함수)
단순 TF-IDF 점수만으로는 상품의 기능적 차이를 명확히 구분하기 어렵다는 문제점을 해결하기 위해, 아래와 같은 정교한 3요소 점수 시스템을 구축했습니다.
핵심 기술 용어 사전(TECH_KEYWORDS
) 구축: 분석의 정확도를 높이기 위해, 제품의 핵심 기능과 직결되는 용어들을 사전에 정의했습니다. 이는 단순히 빈도만 높은 단어가 아니라, about_product
데이터를 분석하여 제품군을 명확하게 구분하는 '결정적 단어'(예: 전자제품의 'USB-C', 'HDMI', 'SSD' 등)들을 수동으로 식별하고 정제하여 TECH_KEYWORDS
리스트를 생성하는 과정을 거쳤습니다.
3요소 점수 계산:
about_product
) 간의 의미적/문맥적 유사도를 cosine_similarity
로 계산합니다.1 - (차이 / 최대 차이)
).TECH_KEYWORDS
에 포함된 단어들을 추출합니다.최종 유사도(%) 산출: 위에서 계산된 세 가지 점수를 다음의 가중치 공식에 따라 합산하여 최종 유사도 점수를 산출합니다.
최종 점수 = (텍스트 유사도 × 0.6) + (가격 유사도 × 0.2) + (키워드 점수 × 0.2)
마지막으로, 이 점수에 100을 곱하여 사용자에게 친숙한 백분율(%) 형태로 변환하여 제공합니다.
advanced_review_analysis
함수)
각 유사 상품에 대한 모든 리뷰 텍스트를 분석하여, 소비자들이 반응하는 핵심 포인트를 요약합니다.
review_content
한 셀에 모든 리뷰가 쉼표로 구분되어 저장된 것을 분리하고, review_title
과 결합하여 상품별 개별 리뷰 데이터(df_reviews
)를 생성하도록 근본적인 데이터 처리 방식을 개선했습니다.VaderSentiment
모델을 사용하여 특정 상품의 모든 리뷰를 긍정/부정 그룹으로 먼저 분류합니다.CountVectorizer
를 이용, 긍정 그룹과 부정 그룹 각각에서 가장 높은 빈도로 등장하는 핵심 단어(구)를 추출하여 ‘주요 긍정/부정 키워드’로 제시합니다.predict_star_rating
함수)특정 카테고리와 가격을 입력받아, 해당 조건으로 상품 출시 시 기대할 수 있는 주요 판매 지표(별점, 리뷰 수)를 예측하고 시장 내 위치를 분석합니다.
Ridge
회귀 모델을 사용하며, StandardScaler
와 OneHotEncoder
로 구성된 전처리 파이프라인을 통해 모델의 안정성과 정확성을 확보했습니다.