全体の処理の説明は以下:

0422共有

クリーニング処理は基本的に

https://github.com/hatakeyama-llm-team/Dataset_for_BTM/tree/main/01web_codes/src/cleaner

のauto_cleaner.pyのclean_textになります。

気になること

改善した方が良さそうなところ。したいけどできてないこと