全体の処理の説明は以下:
0422共有
クリーニング処理は基本的に
https://github.com/hatakeyama-llm-team/Dataset_for_BTM/tree/main/01web_codes/src/cleaner
のauto_cleaner.pyのclean_textになります。
気になること
- n-gramの計算が2箇所ある
- ヘッダーの除去が複数
- パラグラフや文に分けて行なっている処理とそうでない処理、それぞれ、行うタイミングは適切なの
- 形態素解析を複数回実行している
- ml_clean_text()とclean_text()の呼び分けの基準
改善した方が良さそうなところ。したいけどできてないこと
- 確率的に落とすところは、本当はnaive bayesみたいなのが良さそう(→有害ワードの個数が多いほど、棄却確率を上げる)
- →文章を10万件ほどランダムサンプリングして、頻出する単語や文章をリストアップ& 棄却用ワード/センテンスフィルタについか、みたいなアプローチは有り
- 異なるドキュメント間の表現重複の削除:
- 現状は、文字の一致の多さから重複を判断(簡素だが、条件が厳しく引っかかりにくい?
- 「◯◯市にお住まいの方は、AAAA」 「XX市にお住まいの方は、BBBB」のような、ほぼコピペの書き出しがちょくちょく