SMS-이진분류

  1. 데이터에서 URL 제거

  2. 불용어 등록

    정상/비정상 데이터 둘 다에 많이 나오는 단어들

  3. KoBert 모델

    KoBERT와 URL 특징 분석을 결합한 하이브리드 딥러닝 기반 스미싱 탐지 모델 연구.p.pdf

    1. 즉시, 긴급 ⇒ 예측 과정에서 boost
    2. URL 제거
    3. 클래스 불균형 보정: class_weights → 정상: 1.1413 / 스미싱: 0.8899
      1. 스미싱 데이터가 1.5배정도 더 많아서 가중치를 정상에 더 두었다.
    4. epoch: 3

    standardScaler ⇒ batch norm ⇒ layer norm

    KoBERT 내부 구조
        Embedding
            ↓
        LayerNorm  ← 이미 있음
            ↓
        Self-Attention
            ↓
        LayerNorm  ← 이미 있음
            ↓
        Feed Forward