Reinforcement Learning에 대해 알아보겠습니다.

agent는 어떤 environment에서 action을 하고 그에 따라서 적절한 reward를 받습니다.

목표는 reward를 최대화하도록 action이 일어나게 하는 것입니다.

Reinforcement Learning에서는 agent와 environment가 있습니다. environment는 agent에서 state를 줍니다. 그럼 agent는 action을 하고 envirionment가 reward를 줍니다.

environment가 terminal state를 줄때까지 이 과정을 반복합니다.

다양한 예시를 살펴보도록 하겠습니다.

Cart-Pole Problem입니다. 움직이는 cart에서 pole의 균형을 잡는것이 목표입니다.

로봇이 앞으로 움직이도록 하는 것이 목표입니다.