PPO 알고리즘 특징
- 같은 경험을 여러번 재사용하여 학습을 가속화 함
- 너무 빠르게 변화하지 않도록 제한하며, 학습 과정의 안정성을 향상시킨다.
클리핑(clipping)을 적용하여 정책의 업데이트 크기를 제한
- 다양한 환경과 문제에 적용할 수 있는 범용성을 가지고 있다. 이는 복잡한 환경에서도 비교적 쉽게 적용하고
좋은 결과를 가져옴.
PPO는 강화학습의 한 형태로, 에이전트가 환경과 상호작용하며 최적의 정책을 학습합니다. 이 과정에서 에이전트는 행동을 취하고,
환경으로부터 보상을 받으며, 이 보상을 최대화하는 방향으로 행동 정책을 수정해 나갑니다.