
누적 보상(Environment/Cumulative Reward) 그래프
- 보상 값(Reward Value): 이 그래프에는 실제 보상 값과 이를 부드럽게(평균화하여) 보여주는 두 가지 라인이 있습니다. 'Smoothed' 값은 데이터 포인트들의 노이즈를 줄이기 위해 평균을 낸 값입니다. 현재 마우스 커서가 위치한 지점에서의 평활화된 보상은 약 761점 정도입니다.
- 스텝(Step): x축은 학습 과정에서의 스텝 수를 나타냅니다. 현재 마우스가 위치한 지점은 5천만 스텝을 나타냅니다.
- 보상의 변화: 그래프가 전반적으로 증가하는 추세를 보이고 있으며, 이는 에이전트가 점점 더 높은 누적 보상을 얻고 있음을 의미합니다. 초기에는 낮은 보상에서 시작하여 점차 증가하고 있으며, 학습이 진행됨에 따라 보상의 변동성이 커지는 것을 볼 수 있습니다.
- 시간(Relative): 그래프 오른쪽 하단에 있는 'Relative'는 TensorBoard가 시작된 시간으로부터 해당 포인트까지 걸린 상대적인 시간입니다. 여기서는 약 13.85시간이 걸렸다고 나와 있습니다.

누적 보상(Cumulative Reward) 그래프
- 보상의 범위: x축은 누적 보상의 범위를 나타냅니다. 에이전트가 얻은 누적 보상이 어떤 범위에 속하는지 볼 수 있습니다.
- 에피소드의 빈도: y축은 각 보상 범위에 속하는 에피소드의 수를 나타냅니다. 막대가 높을수록 해당 보상 범위의 에피소드 수가 많음을 의미합니다.
- 분포의 모양: 이 히스토그램에서 보상의 분포가 매우 넓게 퍼져 있는 것으로 보입니다. 예를 들어, 매우 높은 보상을 받은 에피소드가 있지만, 낮은 보상을 받은 에피소드도 많은 것으로 보입니다.
- 이상치(Outliers): 특정 막대들이 유난히 높거나 낮을 수 있는데, 이는 이상치나 드문 이벤트를 나타낼 수 있습니다. 이 경우, 그래프에 매우 높은 누적 보상을 받은 몇몇 에피소드가 있음을 보여주는 높은 막대가 있습니다.

에피소드 길이(Episode Length 그래프
- 증가하는 추세: 그래프가 왼쪽에서 오른쪽으로 올라가며, 전반적으로 에피소드의 길이가 증가하고 있습니다. 이는 에이전트가 시간이 지남에 따라 더 오래 생존하거나, 더 많은 스텝을 수행하고 있음을 의미할 수 있습니다.
- 변동성: 그래프에는 시간이 지남에 따라 에피소드 길이의 변동성이 있음을 보여주는 곳이 있습니다. 변동성이 크다는 것은 에이전트의 성능이 에피소드마다 일정하지 않음을 나타낼 수 있습니다.
- 평활화된 값(Smoothed Value): 'Smoothed'라고 표시된 선은 데이터 포인트들의 노이즈를 줄이기 위해 평균을 낸 것입니다. 현재 마우스 커서가 위치한 지점에서의 평활화된 에피소드 길이는 약 672스텝입니다.