本来 GPT-2 は WordPiece/BPE のみで動くのに、誤って SentencePiece を使うよう提案した。
tokenizer_config.json が「sentencepiece」仕様に汚染されたHuggingFace が自動で
"tokenizer_type": "sentencepiece"
を書き込み、GPT-2 と整合性が取れなくなった。
モデルは GPT-2(BPE)なのに
トークナイザは SentencePiece(SPM)扱い
→ ロード時に ValueError 発生。
不要な .model / .vocab を生成させ、
「必要」と誤認させた。
→ 修正方向が遠回りになった。