今回の実験の目的ときっかけ

日本語のLLMを勉強していたところ、ふと「Baseモデルを自分が学習するのは難しいけどInstruction tunedモデルは学習出来そうなのでその性能を再現してみる価値があるのではないか?」と考えました。普段よく使う StableLM-instruct-gamma-7bの性能の再現を目指して、以下のことを確認しようと決定しました。

実験のセッティング

実験結果のサマリー

実施した実験の数が多いためまずは結果を要約し詳細は下で説明します。以下の表は各実験で学習したモデルをJP Language Model Evaluation Harness(effdbeaf742e74ea1787871e99272c12146ba346)で評価した結果です。

Untitled