0326

SMS 모델학습

처음에 Linear Regression + TF IDF로 학습을 시켰다. 내가 가진 데이터셋으로만 돌렸을 땐 train, test 성능이 다 좋았다.

그런데 악성판단에 기여한 단어를 예측과정 중에 추출해 보니 결과가 이상했다.

정상 데이터셋에도 .com이 포함된 경우가 많았고, 특히 [web발신]은 정상 데이터셋에 많이 포함된 키워드였다.

그래서 URL 부분은 온전히 URL ML에 맡기고 나는 txt에서 URL을 제외하고 다시 학습을 시켰다.

그리고 web발신은 피처에서 제외하도록 코드를 짰다.

그래서 스미싱처럼 "즉시", "정지", "해제" 같은 단어가 정상 문자에도 나올 수 있는 경우에는 TF-IDF만으로는 오탐이 많이 생겨요. KoBERT가 문맥을 같이 보기 때문에 훨씬 유리한 거예요

top word를 국민은행으로 본다.

test_samples = [
    "홍길동님의 이번 달 카드 요금 안내서입니다.",               # 정상
    "[국민은행] 보안카드 재발급 필요",                          # 정상
    "더나은치과입니다. 정기검진 받으세요",                      # 정상
    "[택배] 배송지 확인 요망",     # 정상
    "soul 안실장입니다피자 치킨 베라 기프티콘**% 입플 사비쿠폰 이모든걸 가입시 전부 당신꺼 톡do****",
    """
    [web발신]
    [쿠팡] 로캣배송 책상 문 앞(으)로 배송 완료했습니다.
    사진: url:
    """
    "[web 발신] [쿠팡] 로켓배송 책상 문 앞(으)로 배송 완료했습니다. 사진: ",   # 정상
    """
    아빠 나 폰액정이 나가서
수리 맡겼어 이번호가
임시사용하는거라 문자만
가능해 부탁할거있으니
답장해줘.

제목: 제목없음