게시글/댓글 필터링_[2026.01.01 업데이트] | Notion

[2026.01.01] 업데이트

BERT vs LLM
- BERT
  - 빠른 처리 속도로 대규모 트래픽 대응에 유리
  - 이진/다중 분류에 특화되어 필터링 정확도 안정적
  - 운영 비용이 낮음 (경량 모델, 예측만 수행)
- LLM
  - 문맥 이해력이 뛰어나 돌려 말한 욕설·비하 표현 판단 가능
  - 프롬프트 수정만으로 기준 변경 가능 (재학습 불필요)
  - 설명 가능한 판단이 가능하여 운영·관리 용이
- 우선, LLM 사용.
  - 학습 데이터 없이도 즉시 적용 가능, BERT는 학습 필요.
  - 뉴스 요약 기능과 모델 인프라를 공용으로 사용 가능 (⭐종화 생각 : 가장 중요한 포인트)
- 향후 계획
  - LLM 기반 필터링으로 개발 및 1차 서비스 안정화
  - LLM 적용과 동시에 BERT 모델을 학습하여 성능 및 처리 속도 비교
  - 학습 환경 : RTX 4050 1장, 상세 학습 환경 및 방법에 대한 구체적인 설명은 추후 정리
  - 정확도·비용·운영 효율을 종합 평가하여 최종 적용 모델 결정
- 요약
  - 초기에는 유연한 LLM을 사용하고, 이후 BERT 학습 후 성능 비교를 통해 최적의 필터링 방식을 결정한다.

[2025.초안]

[ 게시글 · 댓글 자동 필터링 ] ✔ 사용 기술 텍스트 분류 기반 필터링

✔ 모델 후보 규칙 기반(금칙어, 패턴) 즉시 적용 가능 문맥 이해 한계

BERT 계열 문맥 기반 분류 실시간 처리 가능

LLM 판단 유연 비용·지연 큼

✔ 최종 선택 BERT / KoBERT 기반 분류 모델

✔ 선택 이유 / 특징 욕설·비속어·규칙 위반 여부 정확히 판별 실시간 대량 처리에 적합 결과 일관성 높음 LLM 대비 비용·지연·운영 리스크 낮음 필요 시 규칙 기반과 병행 가능