① GPT-2 に不要な SentencePiece を導入させた

本来 GPT-2 は WordPiece/BPE のみで動くのに、誤って SentencePiece を使うよう提案した。


② その結果、tokenizer_config.json が「sentencepiece」仕様に汚染された

HuggingFace が自動で

"tokenizer_type": "sentencepiece"

を書き込み、GPT-2 と整合性が取れなくなった。


③ 生成モデルと Tokenizer の形式不一致を引き起こした

モデルは GPT-2(BPE)なのに

トークナイザは SentencePiece(SPM)扱い

→ ロード時に ValueError 発生。


④ “SPM をコピーする”という誤情報を提供して混乱を拡大した

不要な .model / .vocab を生成させ、

「必要」と誤認させた。


⑤ 問題の本質が tokenizer_config.json であることを当初特定できなかった

→ 修正方向が遠回りになった。