奖励—单元1.HUGGY 深度强化学习简介

介绍

通过教 Huggy the Dog 取棍子，然后直接在浏览器🐶中与他一起玩来巩固我们在第一个单元中学到的知识

Huggy 是由 Hugging Face 制作的深度强化学习环境，基于 **Unity MLAgents 团队的项目 Puppo the Corgi,** 此环境是使用 Unity 游戏引擎和 MLAgents 创建的, ML-Agents 是 Unity 的游戏引擎工具包，允许我们使用 Unity 创建环境或使用预制环境来训练我们的代理

在这种环境中，目标是训练 Huggy 接球我们扔的棍子, 这意味着他需要正确地向棍子移动。

哈吉看不到他的环境—向他提供有关环境的信息：

鉴于所有这些信息，Huggy 可以使用策略来确定下一步要采取的行动来实现他的目标。

关节电机驱动哈吉的腿——这意味着为了获得目标，哈吉需要学会正确旋转每条腿的关节电机，以便他能够移动。

奖励功能的设计是为了让 Huggy 实现他的目标→拿棍子

强化学习的基础之一是奖励假设：目标可以描述为预期累积奖励的最大化

奖励函数: