환경이 보상을 너무 드물게 제공하는 탓에 학습이 제대로 일어나지 않는 것.
다수의 부분 목표를 달성한 후에야 보상을 받기 때문에 에이전트가 보상 신호만으로는 학습을 하기가 불가능함
환경이 제공하는 외적인 보상 뿐만 아니라 내재적인 보상을 활용함 (호기심이라 칭함)
예측 부호화 모형
사람의 측면에서
강화학습에 접목하려는 시도 ⇒ 예측 오차 메커니즘
환경이 제공하는 외적인 보상을 최대화하고 동시에 에이전트가 취한 행동에 의해 환경이 어떤 상태로 변할 지 예측하고 그 오차를 줄이는 것을 목표로 해서 훈련함.
⇒ 내적 보상에 해당하는 예측 오차와 외적 보상에 해당하는 환경 보상을 합한 것을 에이전트에 대한 보상 신호로 활용.
순방향 예측 모형
역방향 모형
사소하거나, 제어 불가능한 측면이 아니라..
‘중요하지 않음’ 제약을 가하기 위해 도입
상태와 다음 상태를 받고 해당 상태 전이를 유발한 동작을 예측한다.
부호화 모형
⇒ 순방향 모형에서 부호화로는 역전파를 수행하지 않는다.
부호기 모형의 학습에 영향을 끼치므로