강의노트 정리 및 예제 시연

Section 8

DDPG(Deep Deterministic Policy Gradient) 알고리즘 Actor-Critic 기반 강화학습 알고리즘으로 이산적인 행동환경에서 적용 가능한 DQN과 달리 연속적인 상황(행성의 움직임, 로켓의 엔진 분출량 등)에서 적용 가능 DPG(Deterministic Policy Gradient) 알고리즘에 심층인공신경망 기법을 적용 DPG 알고리즘의 행동출력 방식을 통해 연속적인 행동을 선택할 수 있음 상태를 입력으로 받아 행동을 출력하는 액터 모델과 상태와 행동을 입력으로 받아 Q함수 값을 예측하는 크리틱 모델로 구성

image.png

네트워크 학습 성능 향상과 안정적인 학습을 위해 경험 리플레이와 타겟 네트워크 기법 사용 DQN과 차별점 OU Noise를 사용한 탐험

경험 리플레이 DQN에서 사용한 것과 동일

타겟 네트워크 DQN(하드 타겟 업데이트; 네트워크의 파라미터들을 그대로 업데이트)과 달리 소프트 타겟 업데이트를 사용 소프트 타겟 업데이트: 지수이동평균을 통해 업데이트, 급격한 네트워크의 변화를 방지하여 안정적으로 네트워크가 수렴하는데 도움을 줌

OU Noise 랜덤하게 평균으로 회귀하면서 노이즈를 생성하여 실수 범위에서 행동을 선택하여 탐험할 수 있는 방법

image.png

세타 값이 크면 빠르게 평균으로 회귀

image.png

시그마 값이 크면 x가 요동치듯 변하면서 평균으로 회귀

크리틱 네트워크 업데이트 Q함수값에 대한 예측값과 타겟값의 차이를 줄이는 방향으로 업데이트 손실함수의 경우 예측값과 타겟값의 차이의 제곱 평균인 MSE로 설정

image.png

엑터 네트워크 업데이트

image.png

목표함수를 최대화하는 방향으로 업데이트 목표함수=정책 파일을 통해 의사 결정했을 때의 초기함수의 가치함수 -> 한 에피소드의 전체 가치를 의미 한 에피소드동안 거쳤던 상태에서 취한 행동에 대한 Q함수 값의 평균

image.png

연쇄 법칙=Q함수를 정책 네트워크의 파라미터에 대해 미분을 구한 것은 Q함수를 행동에 대해 미분한 것과 행동을 정책 네트워크의 파라미터에 대해 미분한 것의 곱과 같다.

DDPG 알고리즘 구조액터 네트워크가 에이전트의 행동을 결정