元の oupe ec は
GPT-2(BPE)+ ユーザーの combined_data.txt で fine-tune
という正しい構成で動いていた。
これを確認せずに「SentencePieceを使うべき」と誤誘導した。
→ これが最初の致命的ミス。
GPT-2 は SentencePiece をサポートしていない。
にもかかわらず ChatGPT が
「SPM を作れ」「SPM をコピーしろ」
と言い始めてしまった。
→ これにより GPT-2 の tokenizer が破壊される流れが始まった。
→ 絶対に壊してはいけない部分に直接手を入れさせてしまった。