전처리 | Notion

SMS-이진분류

데이터에서 URL 제거
- code
~~불용어 등록~~

정상/비정상 데이터 둘 다에 많이 나오는 단어들
- code
KoBert 모델

KoBERT와 URL 특징 분석을 결합한 하이브리드 딥러닝 기반 스미싱 탐지 모델 연구.p.pdf
1. ~~즉시, 긴급 ⇒ 예측 과정에서 boost~~
2. URL 제거
3. ~~클래스 불균형 보정: class_weights → 정상: 1.1413 / 스미싱: 0.8899~~
  1. 스미싱 데이터가 1.5배정도 더 많아서 가중치를 정상에 더 두었다.
4. epoch: 3
- 필터링
- 옵티마이저: adamW
- batch_size: 32
standardScaler ⇒ batch norm ⇒ layer norm
```
KoBERT 내부 구조
    Embedding
        ↓
    LayerNorm  ← 이미 있음
        ↓
    Self-Attention
        ↓
    LayerNorm  ← 이미 있음
        ↓
    Feed Forward
```
- 성능
- 혼동행렬
- 예시 결과
- 영향 키워드 추출