论文题目:Interactive Evolution: A Neural-Symbolic Self-Training Framework For Large Language Models
论文地址:https://arxiv.org/abs/2406.11736
项目地址:https://github.com/xufangzhi/ENVISIONS
本文作者提出“环境引导的自我训练”框架 ENVISIONS。
香港大学、南京大学
旨在克服两个主要挑战:(1)符号数据的稀缺性,以及(2)大语言模型处理符号语言的能力有限
| 中文 | 英文 | 缩写 | 解释 |
|---|---|---|---|
| 符号数据 | Symbolic Data | 用离散符号或标签表示的信息。这种数据通常是可解释的和有意义的,并且可以直接与现实世界的概念或对象相关联。常见的符号数据包括文本、分类标签、交通信号灯颜色等。 | |
| 符号语言 | Symbolic Language | 符号语言是一种使用符号和规则来表示和操作信息的语言。编程语言是典型的符号语言,因为它们通过语法和语义规则将具体操作和指令表达出来。自然语言也是一种符号语言,尽管其规则更加复杂和模糊 | |
| 监督微调 | Supervised Fine-Tuning | SFT | |
| 人类反馈的强化学习 | Reinforce Learning | RLHF | |
| 自训练技术 | self-training techniques | SL | |
| 奖励模型 | reward model | RM | 奖励函数是用来计算每个状态-动作对(state-action pair)的即时奖励的规则。 |
| 近端策略优化 | Proximal Policy Optimization | PPO | “试错法”。基于前面的经验和分析,AI会更新它决策的规则。它会更倾向于使用那些带来好结果的决策方式,同时减少那些带来坏结果的决策。 |
| 直接偏好优化 | Direct Preference Optimization | DPO | 用户对多个候选输出进行评价 |
| 自我博弈框架 | Self-Play Framework | 用于训练智能体通过与自身对弈或参与多智能体环境中的竞争来优化其策略。 | |
| 自我奖励策略 | Self-Reward Strategy | 智能体在没有预先设定的明确奖励信号的情况下,通过自我评估和设定内部奖励标准来引导自己的学习过程。 | |
| 神经符号自我训练 | Neural-Symbolic Self-Training | 是一种结合神经网络和符号逻辑方法的自我增强学习过程。在这个框架中,神经网络和符号方法相互配合,通过自我训练的方式共同提升模型的性能和效果。这种方法尤其适用于需要高解释性和复杂决策的任务。 | |
| Program-Aided Language | PAL | 利用编程语言的精确性和可操作性来增强自然语言处理的效果 | |
| Program of Thoughts | PoT | 通过一系列逻辑推理步骤来处理复杂任务,类似于人类的思维过程 |