Intro

在多智能体世界中,我们的智能来自于与其他智能体的互动。因此，目标是创造能够与其他人类和其他智能体互动的智能体。

必须研究如何在多智能体系统中训练深度强化学习智能体，以构建能够适应、协作或竞争的鲁棒智能体。

多智能体强化学习（MARL）简介

进行多智能体强化学习（MARL）时，处于一个有多个智能体共享并相互作用于共同环境的情况。

不同类型的多智能体环境

合作环境：在这种环境中，你的智能体需要最大化共同利益。
- 例如，在仓库中，机器人必须合作高效地装载和卸载包裹（尽可能快）。
竞争/对抗环境：在这种情况下，你的智能体通过最小化对手的利益来最大化自身的利益。
- 例如，在网球比赛中，每个智能体都希望击败另一个智能体。
混合对抗和合作：就像在我们的 SoccerTwos 环境中一样，两个智能体是一个团队（蓝色或紫色）的一部分：他们需要相互合作并击败对手团队。

设计多智能体系统

Introduction to Multi-Agent Reinforcement Learning

MARL Approaches

Decentralized system 去中心化

每个智能体都是独立于其他智能体进行训练的。
- 每个吸尘器学会尽可能多地清洁地方，而不关心其他吸尘器（智能体）在做什么。
- 智能体之间不共享信息，这些吸尘器可以像训练单个智能体那样进行设计和训练。
- 训练智能体会**将其他智能体视为环境动态的一部分,**而不是将它们视为智能体。
- 重大缺点:是它会使环境变得非平稳，因为随着其他智能体也在环境中交互，底层的马尔可夫决策过程会随时间变化。这对许多无法在非平稳环境中达到全局最优的强化学习算法来说是个问题。

Centralized approach 集中式方法

有一个高级过程来收集智能体的经验：经验缓冲区, 使用这些经验来学习一个公共策略。
- 在吸尘器示例中，观察结果将是: 1. 吸尘器的覆盖地图 2. 所有吸尘器的位置
- 利用这些集体经验来训练一个策略，使三个机器人作为一个整体以最有利的方式移动。
- 每个机器人都在从它们的共同经验中学习, 由于所有智能体都被视为一个更大的实体，现在有一个静态环境，它们知道其他智能体策略的变化（因为它们与自己的策略相同）。

总结