视频部分

引起了环境的转变

**1.**机器学习类型分为预测类和决策类，预测分为有监督学习（根据数据预测所需输出）和无监督学习（生成数据实例），强化学习（在动态环境中采取行动）属于决策类。

**2.**强化学习是通过从交互学习来实现目标的计算方法。有感知、行动、目标三个方面。

**3.**在每一步t,智能体获得观察$O_t$，获得奖励$R_t$，执行行动$A_t$。环境获得行动$A_t$，给出观察$O_{t+1}$，给出奖励$R_{t+1}$。

**4.**强化学习系统要素为：历史、状态、策略、奖励和价值函数。

（1）历史是观察、行动和奖励的序列。

（2）状态是一种用于确定接下来会发生的事情（行动、观察、奖励）的信息。

（3）策略是状态到行动的映射，分为确定性策略和随机策略。

（4）奖励是对未来累积奖励的预测。