通过教 Huggy the Dog 取棍子,然后直接在浏览器🐶中与他一起玩来巩固我们在第一个单元中学到的知识
Huggy 是由 Hugging Face 制作的深度强化学习环境,基于 **Unity MLAgents 团队的项目 Puppo the Corgi,** 此环境是使用 Unity 游戏引擎和 MLAgents 创建的, ML-Agents 是 Unity 的游戏引擎工具包,允许我们使用 Unity 创建环境或使用预制环境来训练我们的代理
在这种环境中,目标是训练 Huggy 接球我们扔的棍子, 这意味着他需要正确地向棍子移动。
哈吉看不到他的环境—向他提供有关环境的信息:
鉴于所有这些信息,Huggy 可以使用策略来确定下一步要采取的行动来实现他的目标。
关节电机驱动哈吉的腿——这意味着为了获得目标,哈吉需要学会正确旋转每条腿的关节电机,以便他能够移动。
奖励功能的设计是为了让 Huggy 实现他的目标→拿棍子
强化学习的基础之一是奖励假设:目标可以描述为预期累积奖励的最大化
奖励函数: