https://mp.weixin.qq.com/s/j7VcCi5lKvdIKNQ66bjgLQ
怎么在效果相同的情况下,需要得样本量或者人工参与量更少?如何工业落地?
数据!质量、多样性、数量配比、数据迭代;
按项目、按业务、分层级、分类的策略;
改造 CoT 数据格式提升推理能力;
提升分布选择:使用WizardLM中的 Evol Instruct 方法可以明显减少SFT所需数据;
针对幻觉问题和重复问题,SFT 需要对回复内容做过滤;
对于多任务来说,需要要进行细粒度的数据配比和跨语言混合尝试;
对于对话能力,则使用偏好学习通过利用了更多的信息,有可能能提升生成内容的质量,提升泛化能力,更让用户所接受。
NEFTune(Noisy Embedding Instruction Finetuning):给embedding添加噪声,提升了conversational ability and answer quality; NEFTune在知识Capabilities上也基本没有损失,所以可以认为是一个很好的对话能力提升trick。