Instruction tuningをやってみて分かった5つこと (1)

今回の実験の目的ときっかけ

日本語のLLMを勉強していたところ、ふと「Baseモデルを自分が学習するのは難しいけどInstruction tunedモデルは学習出来そうなのでその性能を再現してみる価値があるのではないか？」と考えました。普段よく使う StableLM-instruct-gamma-7bの性能の再現を目指して、以下のことを確認しようと決定しました。

Base modelからのInstruction tuningを行い、公開されているInstructモデルの性能を再現する。
その過程でどの要素が良い性能を作るために重要なのか確認する。

実験のセッティング

使用したtransformersのバージョンは以下の通りです。
- transformers==4.35.0
- trl==0.7.6
notus のコミットハッシュ5cd49123b2fd8622a656afb441361e27db791898を使用しました。
japanese-stablelm-instruct-gamma-7bの性能を再現したいのでデータをそのまま使用しました。
- kunishou/databricks-dolly-15k-ja
- fujiki/japanese_hh-rlhf-49k
- fujiki/llm-japanese-dataset_wikinews

Chat templateもjapanese-stablelm-instruct-gamma-7bのものをそのまま使用しました。

chat_template = "{% for message in messages %}\\n{% if message['role'] == 'user' %}\\n{{ '\\n### 指示: \\n' + message['content'] }}\\n{% elif message['role'] == 'system' %}\\n{{ message['content'] }}\\n{% elif message['role'] == 'assistant' %}\\n{{ '\\n### 応答: \\n'  + message['content'] }}\\n{% endif %}\\n{% if loop.last and add_generation_prompt %}\\n{{ '\\n### 応答: \\n' }}\\n{% endif %}\\n{% endfor %}"

以下はフォーマットされたデータの例です。

以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。

### 指示:
バナナの栄養素を教えてください。

### 応答:
確かに、バナナにはあなたの健康にとって重要な多くの栄養素が含まれています。ビタミンB6、繊維、カリウム、およびビタミンA、C、およびEの配列もあり、マグネシウムと銅も含まれており、マンガン、カルシウム、マグネシウムの優れた供給源です。

以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。

### 指示:
SATスコアは、良い大学に入ろうとするときに最も重要なことですか？

### 応答:
大学は、テストスコアに加えて、多くの要因を検討しています。最も重要なことは、生徒が高校でさまざまな科目を取ることです。もちろん、テストのスコアは重要ですが、大学は他の資質も持っている候補者を探しています。

以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。

### 指示:
Euxoa brevipennisは、どの蛾科に属するのでしょうか？

### 入力:
Euxoa brevipennisは、1888年にSmithによって初めて記述されたNoctuidae科の蛾である。カナダでは、ブリティッシュコロンビア州、アルバータ州、サスカチュワン州に生息する。アメリカではユタ州、コロラド州、カリフォルニア州から記録されている。

### 応答:
Euxoa brevipennis mothは、ノクトウガ科に属するガです。

実験結果のサマリー

実施した実験の数が多いためまずは結果を要約し詳細は下で説明します。以下の表は各実験で学習したモデルをJP Language Model Evaluation Harness(effdbeaf742e74ea1787871e99272c12146ba346)で評価した結果です。

Untitled