気になること

改善した方が良さそうなところ。したいけどできてないこと

確率的に落とすところは、本当はnaive bayesみたいなのが良さそう(→有害ワードの個数が多いほど、棄却確率を上げる)
- →文章を10万件ほどランダムサンプリングして、頻出する単語や文章をリストアップ& 棄却用ワード/センテンスフィルタについか、みたいなアプローチは有り
異なるドキュメント間の表現重複の削除：
- 現状は、文字の一致の多さから重複を判断(簡素だが、条件が厳しく引っかかりにくい？
- 「◯◯市にお住まいの方は、AAAA」　　「XX市にお住まいの方は、BBBB」のような、ほぼコピペの書き出しがちょくちょく