3: 算数課題の調査

結論

Llama2-7Bで14.6, WizardMath-7Bで54.9だが、WizardMathはある意味カンニングである（OpenMathInstruct-1データセットを使っているから)
近頃のモデルにおいてGSM8Kを答えることができるのは、GSM8Kを丸暗記しているから。
特にOpenMathInstruct-1 データセットで学習したものは答えられるようになるのはある意味当たり前。
これらのモデルにaqua_ratに対して答えさせるとどうなるか？
興味ぶかいのは仮にOpenMathInstruct-1で丸暗記させていたとしても、WizardMath 7B v1.1は, 英文のGSM8Kならば54.9で答えるが、日本語になると18.4まで落ちる

Untitled

WizardMath 7B v1.1は, 英文のGSM8Kならば54.9で答えるが、日本語になると18.4まで落ちる

Untitled

Datasets