伯禹学习平台

视频部分

image.png

引起了环境的转变

**1.**机器学习类型分为预测类和决策类,预测分为有监督学习(根据数据预测所需输出)和无监督学习(生成数据实例),强化学习(在动态环境中采取行动)属于决策类。


image.png

**2.**强化学习是通过从交互学习来实现目标的计算方法。有感知、行动、目标三个方面。


image.png

**3.**在每一步t,智能体获得观察$O_t$,获得奖励$R_t$,执行行动$A_t$。环境获得行动$A_t$,给出观察$O_{t+1}$,给出奖励$R_{t+1}$。


image.png

image.png

image.png

**4.**强化学习系统要素为:历史、状态、策略、奖励和价值函数。

(1)历史是观察、行动和奖励的序列。

(2)状态是一种用于确定接下来会发生的事情(行动、观察、奖励)的信息。

(3)策略是状态到行动的映射,分为确定性策略和随机策略。

(4)奖励是对未来累积奖励的预测。