진화 과정을 모의로 실행하는 알고리즘을 이용해서 강화학습을 위한 신경망을 역전파와 경사 하강법을 사용하지 않고도 훈련하는 방법을 설명한다.
진화론 개요
자연선택:
- 각 세대에서 가장 적합한 개체를 선택
- 가장 적합한 개체(적자)는 재생산(번식) 성공 확률이 가장 큰 개체
- 유전 정보가 이후 세대에 전해잘 가능성이 가장 크다
- 가장 적합하다는 것은 환경에 상대적이다.
변이
- 생명체의 특성을 아주 미세하게 변경
- 두 세대 간의 차이는 구분하기 어려울 수 있지만
- 여러 세대에 걸쳐 누적되면 눈에 띄는 변화가 생긴다.
진화 강화학습
- 주어진 환경에서 더 높은 보상을 얻는 에이전트의 형질을 다음 세대로 전달
- 형질: 매개변수 :: 신경망의 행동을 결정하는 것은 매개변수들 뿐.
- 에이전트의 적합도 : 환경에서 에이전트가 얻는 기대 보상
진화를 이용한 강화학습
확률 기반 강화학습 알고리즘<
- Q 신경망 or 정책망
- 환경과 상호작용하며 경험 수집