[2026.01.01] 업데이트
- BERT vs LLM
- BERT
- 빠른 처리 속도로 대규모 트래픽 대응에 유리
- 이진/다중 분류에 특화되어 필터링 정확도 안정적
- 운영 비용이 낮음 (경량 모델, 예측만 수행)
- LLM
- 문맥 이해력이 뛰어나 돌려 말한 욕설·비하 표현 판단 가능
- 프롬프트 수정만으로 기준 변경 가능 (재학습 불필요)
- 설명 가능한 판단이 가능하여 운영·관리 용이
- 우선, LLM 사용.
- 학습 데이터 없이도 즉시 적용 가능, BERT는 학습 필요.
- 뉴스 요약 기능과 모델 인프라를 공용으로 사용 가능 (⭐종화 생각 : 가장 중요한 포인트)
- 향후 계획
- LLM 기반 필터링으로 개발 및 1차 서비스 안정화
- LLM 적용과 동시에 BERT 모델을 학습하여 성능 및 처리 속도 비교
- 학습 환경 : RTX 4050 1장, 상세 학습 환경 및 방법에 대한 구체적인 설명은 추후 정리
- 정확도·비용·운영 효율을 종합 평가하여 최종 적용 모델 결정
- 요약
- 초기에는 유연한 LLM을 사용하고, 이후 BERT 학습 후 성능 비교를 통해 최적의 필터링 방식을 결정한다.
[2025.초안]
[ 게시글 · 댓글 자동 필터링 ]
✔ 사용 기술
텍스트 분류 기반 필터링
✔ 모델 후보
규칙 기반(금칙어, 패턴)
즉시 적용 가능
문맥 이해 한계
BERT 계열
문맥 기반 분류
실시간 처리 가능
LLM
판단 유연
비용·지연 큼
✔ 최종 선택
BERT / KoBERT 기반 분류 모델
✔ 선택 이유 / 특징
욕설·비속어·규칙 위반 여부 정확히 판별
실시간 대량 처리에 적합
결과 일관성 높음
LLM 대비 비용·지연·운영 리스크 낮음
필요 시 규칙 기반과 병행 가능