无需人类标注！在环境交互中实现LLM的自我进化 | Notion

论文题目：Interactive Evolution: A Neural-Symbolic Self-Training Framework For Large Language Models

论文地址：https://arxiv.org/abs/2406.11736

项目地址：https://github.com/xufangzhi/ENVISIONS

本文作者提出“环境引导的自我训练”框架 ENVISIONS。

创作团队

香港大学、南京大学

研究目的

旨在克服两个主要挑战：（1）符号数据的稀缺性，以及（2）大语言模型处理符号语言的能力有限

关键词

中文	英文	缩写	解释
符号数据	Symbolic Data		用离散符号或标签表示的信息。这种数据通常是可解释的和有意义的，并且可以直接与现实世界的概念或对象相关联。常见的符号数据包括文本、分类标签、交通信号灯颜色等。
符号语言	Symbolic Language		符号语言是一种使用符号和规则来表示和操作信息的语言。编程语言是典型的符号语言，因为它们通过语法和语义规则将具体操作和指令表达出来。自然语言也是一种符号语言，尽管其规则更加复杂和模糊
监督微调	Supervised Fine-Tuning	SFT
人类反馈的强化学习	Reinforce Learning	RLHF
自训练技术	self-training techniques	SL
奖励模型	reward model	RM	奖励函数是用来计算每个状态-动作对（state-action pair）的即时奖励的规则。
近端策略优化	Proximal Policy Optimization	PPO	“试错法”。基于前面的经验和分析，AI会更新它决策的规则。它会更倾向于使用那些带来好结果的决策方式，同时减少那些带来坏结果的决策。
直接偏好优化	Direct Preference Optimization	DPO	用户对多个候选输出进行评价
自我博弈框架	Self-Play Framework		用于训练智能体通过与自身对弈或参与多智能体环境中的竞争来优化其策略。
自我奖励策略	Self-Reward Strategy		智能体在没有预先设定的明确奖励信号的情况下，通过自我评估和设定内部奖励标准来引导自己的学习过程。
神经符号自我训练	Neural-Symbolic Self-Training		是一种结合神经网络和符号逻辑方法的自我增强学习过程。在这个框架中，神经网络和符号方法相互配合，通过自我训练的方式共同提升模型的性能和效果。这种方法尤其适用于需要高解释性和复杂决策的任务。
	Program-Aided Language	PAL	利用编程语言的精确性和可操作性来增强自然语言处理的效果
	Program of Thoughts	PoT	通过一系列逻辑推理步骤来处理复杂任务，类似于人类的思维过程

1. 简介