4장에서 공부한 REINFORCE 알고리즘은 개별적인 정책 함수가 필요하지 않다는 장점을 가지지만, 복잡한 환경의 강화학습에는 잘 작동하지 않는다. 또한 심층 Q 신경망은 이산적인 동작 공간에서 효율적이지만, 개별적인 정책 함수가 필요하다.

⇒ REINFORCE 알고리즘 장점 + 심층 Q 신경망 장점 = 행위자-비평자 모형

가치 함수와 정책 함수의 결합

정책망 학습 개선 방안

부트스트래핑

행위자-비평자 방법